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视频 处 理 与 通信 


Video Processing and Communications 





本 书 介绍 了 视频 信号 分 析 和 数字 视频 处 理 的 基本 原理 ,结合 国际 最 新 科技 进展 对 视 
频 编码 技术 、 国 际 编码 标准 、 视 频 通 信 及 网 络 流 媒体 技术 进行 了 重点 讨论 ， 写 作风 格 
注重 扎实 的 理论 基础 和 复杂 的 系统 概念 之 间 的 平衡 ， 是 目前 数字 视频 领域 的 一 本 最 具 
系统 性 、 先 进 性 和 实用 性 的 教程 之 一 。 每 章 末 尾 附 有 小 结 和 习题 ， 附 录 给 出 了 有 关 的 
数学 方法 和 部 分 习题 答案 。 
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内 容 简介 


本 书 深入 系统 地 阑 述 了 视频 基础 理论 , 广泛 精辟 地 介绍 了 各 种 实际 的 数字 视频 处 理 和 通信 系统 , 全面 地 反 
映 了 国际 上 数字 视频 技术 的 最 新 进展 与 成 果 。 在 概述 了 视频 技术 、 视 频 信号 分 析 和 人 类 视觉 系统 之 后 , 论述 了 
数字 视频 信号 的 形成 和 格式 转换 、 视频 信号 的 数学 模型 、 摄像 机 和 目标 的 运动 估计 、 视 频 编码 原理 和 各 种 编码 
方法 以 及 多 视 视频 等 关键 课题 , 讨论 了 各 种 视频 编码 标准 、 视 频 通 信 中 的 差错 控制 , 因特网 和 无 线 网 络 中 的 流 
视频 等 视频 通信 的 原理 和 技术 ， 每 章 后 附 有 小 结 、 习 题 和 参考 文献 。 

本 书 语言 流畅 、 图 文 并 茂 , 具有 系统 性 、 先 进 性 和 实用 性 特点 。 本 书 可 作为 理工 类 大 专 院 校 相 关 专 业 的 研 
帘 生 视频 处 理 和 通信 课程 的 教材 ， 也 可 供 有 关 科 技 上 作者 参考 或 自学 使 用 。 
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2001 年 7 月 间 , 电子 工业 出 版 社 的 领导 同志 邀请 各 高 校 土 几 位 通信 和 仙 城 方面 的 老师 , 商量 引进 
外 教材 问题 。 与 会 同志 对 由 版 社 提出 的 计划 十 分 赞同 ,大 家 认为 , 这 对 我 国道 信 事 业 、 特 别 是 对 
高 等 院 校 通信 学 科 的 教学 工作 会 很 有 好 处 。 

教材 建设 是 高 校 教 学 建设 的 主要 内 容 之 一 。 编写 、 出 版 一 本 好 的 教材 , 意味 着 开设 了 一 门 好 的 
课程 ， 甚 至 可 能 预示 着 一 个 府 新 学 科 的 诞生 。20 世纪 40 年 代 MIT 林肯 实验 室 出 版 的 一 套 28 本 雷 
达 从 书 ， 对 近代 电子 学 科 、 特 别 是 对 雷达 技术 的 推动 作用 ， 就 是 一 个 很 好 的 例子 。 

我 国 领导 部 门 对 教材 建设 一 直 非 常 重视 。20 世纪 80 年 代 , 在 原 教委 教材 编审 委员 会 的 领导 下 ， 
汇集 了 高 等 院 校 儿 百 位 富有 教学 经 验 的 专家 , 编写 、 出 版 了 一 大 批 教材 ; 很 多 院 校 还 根据 学 校 的 特点 
和 需要 ， 陆 绫 编写 了 大 量 的 讲义 和 参考 书 。 这 些 教材 对 高 校 的 教学 工作 发 挥 了 极 好 的 作用 。 近 年 来 ， 
随 着 教学 改革 不 断 深 入 和 科学 技术 的 飞速 进步 ,有 的 教材 内 容 已 比较 陈旧 、 落 后 , 难以 适应 教学 的 要 
求 , 特别 是 在 电子 学 和 通信 技术 发 展 神速 、 可 以 讲 是 日 新 月 异 的 今天 , 如 何 适应 这 种 情况 , 更 是 一 个 
必须 认真 考虑 的 问题 解决 这 个 问题 ,除了 依靠 高 校 的 老师 和 专家 撰写 新 的 符合 要 求 的 教科 书 外 , 引 
进 和 出 版 一 些 国外 优秀 电子 与 通信 教材 ， 尤 其 是 有 选择 地 引进 一 批 英文 原版 教材 ， 是 会 有 好 处 的 。 

一 年 多 来 ,电子 工业 出 版 社 为 此 做 了 很 多 工作 。 和 他们 成 立 了 一 个 “国外 电子 与 通信 教材 系 济 " 
项 目 组 , 选派 了 富有 经 验 的 业务 骨干 负责 有 关 工 作 , 收集 了 230 余 种 通信 教材 和 参考 书 的 详细 资料 ， 
调 来 了 100 余 种 原版 教材 样 书 ， 依 靠 由 20 余 位 专家 组 成 的 出 版 委员 会 ,从 中 精 选 了 各 多 种 ， 内 容 
FA, 覆盖 了 电路 理论 与 应 用 、 信 号 与 系统 、 数 字 信号 处 理 、 微 电子 、 通信 系统 、 电 磁场 与 微波 等 
方面 , 既 可 作为 通信 专业 本 科 生 和 研究 生 的 教学 用 书 ， 也 可 作为 有 关 专 业 人 员 的 参考 材料 。 此 外 ， 
这 批 教材 , 有 的 翻译 为 中 文 , 还 有 部 分 教材 直接 影印 出 版 , 以 供 教师 用 英语 直接 授课 。 希望 这 些 教 
材 的 引进 和 出 版 对 高 校 通 信教 学 和 教材 改革 能 起 一 定 作用 。 

在 这 里 , 我 还 要 感谢 参加 工作 的 各 位 教授 、 专 家、 老师 与 参加 翻译 、 编辑 和 出 版 的 同志 们 。 各 
位 专家 认真 负责 、 严 说 细致 、 不 秤 辛劳 、 不 怕 琐 碎 和 精益 求 精 的 态度 , 充分 体现 了 中 国教 育 工作 者 
和 出 版 工作 者 的 和 良好 美德。 

随 着 我 国 经 济 建设 的 发 展 和 科学 技术 的 不 断 进 步 ， 对 高 校 教学 工作 会 不 断 提出 新 的 要 求 和 希 
B. 我 想 ,无论 如 何 , 要 做 好 引进 国外 教材 的 工作 , 一 定 要 联系 我 国 的 实际 。 教材 和 学 术 专 著 不 同 
BERENTI, FRE, 也 要 重视 可 读 性 , 要 深入浅出， 便于 读者 自学 ; 引进 的 教材 要 适应 高 校 
教学 改革 的 需要 ,针对 目前 一 些 教材 内 容 较 为 陈旧 的 问题 , 有 目的 地 引进 一 些 先进 的 和 正在 发 展 中 
的 交叉 学 科 的 参考 书 ; 要 与 国内 出 版 的 教材 相配 套 , 安排 好 出 版 英文 原版 教材 和 翻译 教材 的 比例 。 
我 们 努力 使 这 套 教材 能 尽量 满足 上 述 要 求 ， 希 望 它们 能 放 在 学 生 们 的 课 桌 上 ， 发 挥 一 定 的 作用 。 

最 后 , 预 视 “国外 电子 与 通信 教材 系列 ” 项 目 取得 成 功 , 为 我 国电 子 与 通信 教学 和 通信 产业 的 
发 展 培土 施肥 。 也 姑 切 啼 望 读者 能 对 这 些 书 矫 的 不 足 之 处 、 特别 是 狗 译 中 存在 的 问题 , 提出 意见 和 


建议 ， 以 便 再 版 时 更 正 。 
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中 国 工程 院 院士 、 清 华 大 学 教授 
“国外 电子 与 通信 教材 系列 ”出 版 委员 会 主任 
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出 版 说 明 





进入 21 世纪 以 来 , 我 国信 息 产 业 在 生产 和 科 侠 方向 都 大 大 加 快 了 发 展 速度 ， 并 已 成 为 国民 经 








济 发 展 的 支柱 产业 之 一 。 但 是 , 与 世界 上 其 他 信息 产业 发 达 的 国家 机 


























蕊 ,我 国 在 技术 开发 、 教 育 培 


训 等 方面 都 还 存在 着 较 大 的 差距 。 特别 是 在 加 人 WTO 后 的 今天 , 我 国信 息 产 业 面临 着 国外 竞争 对 


手 的 严峻 挑战 。 





作为 我 国信 息 产 业 的 专业 科技 出 版 社 , 我 们 始终 关注 着 全 球 电 了 
引进 国外 优秀 电子 与 通信 信息 技术 教材 和 专业 书籍 放 在 我 们 工作 的 了 


要 位 置 


信息 技术 的 发 展 方向 ,始终 把 


-。 在 2000 年 至 2001 





年 间 ， 我 社 先后 从 世界 著名 出 版 公司 引进 出 版 了 40 祭 种 教材 ， 形 成 了 一 套 “ 乓 外 计算 机 科学 教材 
系列 “， 在 全 国 高 校 以 及 科研 部 门 中 受到 了 欢迎 和 好 评 ， 得 到 了 计算 机 领域 的 广大 教师 与 科研 工作 


者 的 充分 肯定 。 








引进 和 出 版 一 些 国外 优秀 电子 与 通信 教材 ,上 其 是 有 选择 地 引进 一 批 英文 原版 教材 ,将 有 助 于 
我 国信 息 产业 培养 具有 国际 竞争 能 力 的 技术 人 才 ,也 将 有 助 于 我 国 国内 在 电子 与 通信 教学 工作 中 掌 
握 和 跟踪 国际 发 展 水 平 。 根 据 国内 信息 产业 的 现状 、 教 育 部 《关于 “十 五 " 期间 普 通 高 等 教育 教材 
建设 与 改革 的 意见 》 的 指示 精神 以 及 高 等 院 校 老师 们 反映 的 各 种 意见 , 我们 决定 引进 “国外 电子 与 
通信 教材 系列 "， 并 随后 开展 了 估量 准备 上 作 。 此 次 引进 的 国外 电子 与 通信 教材 均 来 自 国际 著名 出 





























版 商 , 其 中 影印 教材 约 占 一 半 。 教材 内 容 涉 及 的 学 科 方向 包括 电路 理论 与 应 月 














、 信 号 与 系统 、 数 字 


信和 号 处 理 、 微 电子 、 通 信 系 统 、 电 磁场 与 微波 等 ,其 中 既 有 本 科 专 业 课 程 教材 ,也 有 研究 生 课程 教 

材 ， 以 适应 不 同 院 系 、 不 同 专业 、 不 同 层次 的 师 生 对 教材 的 需求 , 广大 师 生 可 自由 选择 和 自由 组 合 

使 用 。 我 们 还 将 与 国外 出 版 商 一 起 ， 陆 续 推出 一 些 教材 的 教学 支持 资料 ， 为 授课 教师 提供 帮助 。 
此 外 ,“ 国 外 电子 与 通信 教材 系列 ”的 引进 和 出 版 工作 得 到 了 教育 部 高 等 教育 司 的 大 力 支持 和 


























和 帮助， 其 中 的 部 分 引进 教材 已 通过 “教育 部 高 等 学 校 电子 信息 科学 与 工程 类 专业 教学 指导 委员 会 


的 审核 , 并 得 到 教育 部 高 等 教育 司 的 批准 , 纳 人 了 “教育 部 高 等 教育 司 推荐 


与 技术 系列 教学 用 书 ”。 





国外 优秀 信息 科学 


为 做 好 该 系列 教材 的 翻译 工作 , 我 们 聘请 了 清华 大 学 、 北 京 大 学 、 北京 邮电 大 学 、 东 南大 学 、 
西安 交通 大 学 、 天 津 大 学 、 西 安 电 子 科技 大 学 、 电 子 科技 大 学 等 著名 高 校 的 教授 和 骨干 教师 参与 教 
材 的 翻 肥 和 审 校 工作 。 许 多 教授 在 国内 电子 与 通信 专业 领域 享有 较 高 的 声望 ,具有 丰富 的 教学 经 验 ， 
他 们 的 渊博 学 识 从 根本 上 保证 了 教材 的 翻译 质量 和 专业 学 术 方面 的 严格 与 准确 .我 们 在 此 对 他 们 的 
辛勤 工作 与 贡献 表示 衷心 的 感谢 。 此 外 , 对 于 编辑 的 选择 , 我们 达到 了 专业 对 口 ; 对 于 从 英文 原 书 

















审 校 、 排 版 、 印 制 质 量 进行 了 严格 把 关 。 





师 生 和 读者 提出 批评 及 建议 。 





中 发 现 的 错误 , 我们 道 过 与 作者 联络 、 从 网 上 下 载 勘 误 表 等 方式 , 逐一 进行 了 修订 ; 同时 , 我们 对 


今后 ,我 们 将 进一步 加 强 同 各 高 校 教师 的 密切 关系 , 努力 引进 更 多 的 国外 优秀 教材 和 教学 参考 
书 , 为 我 国电 子 与 通信 教材 达到 世界 先进 水 平 而 努力 - 由 于 我 们 对 国内 外 电子 与 道 信 教育 的 发 展 仍 
存在 一 些 认识 上 的 不 足 , ERE, 翻译 、 出 版 等 方面 的 上 作 中 还 有 许多 需要 改进 的 地 方 , Bk 
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近年 来 随 着 多 媒体 和 网 络 通信 技术 的 飞速 发 展 ,视频 .图像 计算 机 视觉 ,多 媒体 数据 库 和 
计算 机 网 络 技术 H 益 融合 ,遍及 国民 经 济 和 社会 生活 的 各 个 方面 。 处 于 其 核心 地 位 的 视频 处 
理 ,视频 编码 和 视频 通信 ,已 成 为 信息 与 通信 工程 学 科 的 前 沿 领 域 和 热门 课题 。 在 这 一 领域 
中 ,新 概念 .新 算法 .新 标准 .新 协议 .新 技术 、 新 理论 正在 不 断 涌现 方兴未艾。 视频 处 理 和 通 
信和 的 ) 泛 应 用 和 深入 研究 ,呼唤 从 实践 到 理论 的 升华 ,呼唤 对 新 概念 的 确切 理解 和 学 术 认 同 。 
另 -方面 , 面 对 数字 视频 的 大 干 世界 ,研究 生 和 科技 工作 者 迫切 希望 能 够 有 一 本 系统 讲授 视频 
处 理 与 通信 的 理论 和 技术 的 教科 书 作为 入门 的 向 导 , 跟 上 国际 学 术 界 的 发 展 步伐 ,开展 科学 研 
究 和 工程 实践 。 本 书 正 是 这 样 一 本 理想 的 ,最 新 的 和 不 可 多 得 的 教材 。 

本 书 全 面 地 芭 映 了 国际 上 数字 视频 领域 的 最 新 进展 与 成 果 , 深 入 系统 地 阑 述 了 视频 基础 
理论 ,广泛 精通 地 介绍 了 各 种 实际 的 数字 视频 处 理 和 通信 系统 ,力求 在 深度 与 广度 、 理 论 与 实 
践 之 间 取 得 平衡 。 在 概述 了 视频 技术 .视频 信号 分 析 和 人 类 视觉 系统 之 后 ,论述 了 数字 视频 信 
好 的 形成 和 格式 转换 、 视 频 信 和 叶 的 数学 模型 .摄像 机 和 自 标 的 运动 估计 .视频 编码 原理 和 各 种 
编码 方法 以 及 多 视 视频 等 关键 课题 ,讨论 了 各 种 视频 编码 标准 、 视 频 通信 中 的 差错 控制 , 因 特 
网 和 无 线 网 络 中 的 流 视 频 等 视频 通信 的 原理 和 技术 。 

本 书 是 作者 通过 科研 和 教学 实践 编写 面 成 的 ,是 研究 生 祝 频 处 理 和 通信 课程 的 首选 教材 ， 
也 可 供 有 关 科技 工作 者 参考 或 自学 使 用 。 本 书 语言 流畅 ,图 文 并 茂 。 每 章 后 附 有 小 结 和 习题 ， 
书后 附 有 部 分 习题 解答 和 英文 缩写 词汇 表 。 各 章 的 参考 文献 为 读者 进一步 深入 钻研 提供 了 便 
利 。 本 书 的 翻译 .出 版 和 广泛 使 用 , 必 将 对 我 国 数字 视频 技术 的 发 展 产生 深远 的 影响 。 

本 书 由 修正 信和 负责 并 承担 主要 恶 译 工作 ,参加 本 书 翻 译 工作 的 还 有 杨 喜 CE XS REP .部 
PARAR ARS ERE SR AR BE EE ER HI TE A EE 
患 . 肖 志 涛 . 杨 爱 注 和 王 安 国 等 。 本 书 涉及 许多 新 概念 和 新 技术 ,由 于 译 者 水 平 有 限 ,译文 中 可 
能 存在 一 些 不 妥 之 处 , 歼 请 专家 和 广大 读者 批评 指正 。 
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Till 


在 过 去 10 年 左右 的 时 间 里 ,在 多 媒体 表示 和 通信 和 领域 取得 了 惊人 的 进展 。 首 先 ,已 经 很 
清楚 的 是 媒体 的 所 有 方面 正在 “进入 数字 化 ”: 从 表示 到 传输 ,从 处 理 到 检索 ,从 演播 室 到 家 庭 。 
其 次 ,数字 多 媒体 的 压缩 和 通信 算法 取得 了 显著 的 进步 ,这 使 得 在 目前 的 网 络 中 以 相对 低 的 码 
率 传 输 高 质量 的 视频 成 为 可 能 。 第 三 ,超大 规模 集成 电路 技术 的 发 展 可 以 经 济 有 效 地 实现 复 
条 的 软件 。 节 后 但 并 非 不 重要 的 是 ,由 ISO/MPEG 种 ITU-T 制定 的 多 个 国际 标准 为 不 同 的 厂家 
和 视频 提供 者 莫 定 了 一 个 共同 工作 的 基础 。 

同时 ,无 线 和 网 络 技术 爆炸 性 的 发 展 深刻 地 改变 了 全 球 通信 的 基础 结构 。 无 线 .多 媒体 和 

网 络 的 融合 将 彻底 改变 人 们 进行 商务 活动 和 彼此 间 遗 信 的 方式 。 未 来 的 计算 和 通信 结构 将 共 
有 实际 上 的 无 限 带宽 ,全 连接 性 、 高 移动 性 和 充裕 的 多 媒体 容量 。 
随 着 多 媒体 的 逐步 渗透 ,视频 、 图 形 .计算 机 视觉 多 媒体 数据 库 和 计算 机 网 络 之 间 的 界限 
开始 变 得 模糊 了 ,使 视频 处 理 成 为 一 个 多 学 科 的 激动 人 心 的 领域 .今天 ,视频 处 理 处 于 多 媒体 
的 核心 地 位 。 在 其 所 包含 的 众多 技术 中 ,视频 编码 及 其 标准 化 在 这 些 发 展 中 无 疑 起 着 关键 性 
的 作用 。 本 书包 含 了 数字 视频 处 理 的 基本 原理 和 技术 ,重点 是 视频 编码 和 视频 通信 。 它 可 以 
作为 研究 生 视 频 处 理 课程 的 教材 ,也 可 以 作为 研究 人 员 和 工程 师 参 考 或 自学 使 用 。 在 内 容 选 
FEL ,我 们 力求 在 提供 一 个 扎实 的 理论 基础 与 给 出 取 自 实际 视频 系统 的 复杂 系统 实例 之 间 达 
到 平衡 。 


内 容 提要 


第 1 章 给 出 了 视频 技术 的 概述 ,从 模拟 彩色 电视 系统 到 数字 视频 。 第 2 章 色 画 了 在 频 域 
进行 视频 分 析 的 解析 框架 ,并 且 描述 了 人 类 视觉 系统 的 特性 。 第 3 章 到 第 12 章 集中 于 数字 视 
频 技术 的 几 个 关键 子 课题 。 第 3 章 和 第 4 章 考虑 如 何 对 连续 空间 视频 信号 采样 ,以 保证 在 可 
接受 的 码 率 下 保持 最 大 的 感知 信息 ,以 及 如 何 把 视频 从 一 种 格式 转化 为 另 一 种 格式 。 第 5 章 
给 出 了 形成 视频 信号 的 各 部 分 模型 ,包括 摄像 机 、 照 明光 源 、 成 像 日 标 和 场景 组 成 ;摄像 机 和 目 
标的 三 维 (3D) 运 动 以 及 它们 向 二 维 (2D) 图 像 平 面 的 投影 讨论 得 比较 详细 ,因为 这 些 模型 是 展 
开 运 动 估计 算法 的 基础 ,这 些 是 第 6 章 和 第 ? 章 的 内 容 。 第 6 章 重点 在 二 维 运 动 估 计 , 它 在 现 
代 视 频 编码 器 中 是 关键 性 的 部 分 。 这 也 基 三 维 运 动 估 计 的 一 个 必要 的 预 处 理 步骤 。 我 们 给 出 
了 二 维 运 动 估计 的 基本 原理 ,同时 给 出 了 基于 不 同 二 维 运动 表示 的 实际 算法 。 第 7 章 考虑 三 
维 运动 估计 , 它 是 各 种 计算 机 视觉 应 用 所 需要 的 ,也 有 助 于 提高 视频 编码 的 效率 。 

第 8 章 到 第 11 章 全 部 是 视频 编码 的 课题 。 第 8 章 介绍 了 信 源 编码 的 基本 原理 和 技术 , 包 
括 有 损 和 无 损 编码 的 信息 论 极 限 .二 进 制 编码 方法 以 及 标量 和 矢量 量化 。 第 9 章 集中 于 基于 
波形 的 方法 (包括 变换 和 预测 编码 ) ,并 且 介绍 了 基于 块 的 混合 编码 结构 , 它 是 所 有 国际 视频 编 
码 标准 的 核心 。 第 10 章 讨 论 了 基于 内 容 的 编码 ,通过 利用 景物 内 容 的 知识 这 种 方法 有 望 达到 
极 高 的 压缩 率 。 第 11 章 给 出 了 可 分 级 编码 方法 ,这 种 方法 非常 适合 于 视频 流 和 广播 应 用 , 因 
为 在 这 些 场 合 ,接收 省 经 常 存 在 网 络 连接 和 计算 能 力 的 变化 。 第 12 章 介 绍 了 立体 和 多 视角 视 
频 处 理 技术 ,包括 位 差 估 计 和 这 些 序列 的 编码 。 
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第 13 章 到 第 15 章 包 括 了 视频 通信 的 系统 级 问题 。 第 13 章 介 绍 了 H. 261, H. 263, 
MPEC-1,MPEG-2 和 MPEC-4 视频 编码 标准 ,比较 了 他 们 的 应 卉 场合 及 模 对 性 能 。 这 些 标准 集 
中 了 第 8 章 到 第 11 章 过 论 的 许多 编码 技术 ,同时 简单 地 叙述 了 多 媒体 内 容 描 述 标准 MPECG-7。 
第 14 章 综述 了 对 抗 视频 通信 系统 中 传输 差错 的 技术 ,同时 描述 了 不 同 视频 应 用 的 需求 以 及 各 
种 网 络 的 特性 。 作 为 实际 视频 通信 系统 的 一 个 例子 ,我 们 以 因特网 和 无 线 网 络 中 的 视 典 流 来 
结束 本 书 。 第 15 章 讨论 了 对 流 系统 主要 组 成 部 分 的 要 求 和 代表 性 的 解决 方案 。 


对 教学 和 自学 的 使 用 建议 


作为 先决 条 件 , 学 生 应 完成 信号 与 系统 、 通 信 、 概 率 论 以 及 最 好 一 门 图 像 处 理 方面 的 本 科 
生 课 程 。 对 于 一 个 学 期 的 重点 在 视频 编码 和 通信 的 课程 ,我 们 建议 包括 前 两 章 ,然后 是 视频 模 
型 (第 5 章 ), 二 维 运动 估计 (第 6 章 ), 视 频 编码 (第 8 章 到 第 11 章 ) ,标准 (第 13 章 ) ,差错 控制 
(第 14 章 ) 和 视频 流 系 统 (第 15 章 )。 另 一 方面 ,对 于 一 般 的 视频 处 理 课程 ,前 9 章 ,包括 前 言 
(第 1 章 )\ 频 域 分 析 ( 第 2 AE) .采样 和 采样 率 转换 (第 3 .4 章 ) .视频 模型 (第 5 BE) .运动 估计 
(第 6 章 和 第 7 章 ) 和 基本 视频 编码 技术 (第 8 章 和 第 9 章 ), 以 及 从 第 10 章 到 第 13 章 中 选择 一 
些 内 容 (基于 内 容 的 编码 ,标量 编码 .立体 和 视频 编码 标准 ) 可 能 是 合适 的 。 无 论 哪 种 情况 ,如 
采 学 生 已 经 预先 完成 了 信 源 编码 课程 , 均 可 跳 过 第 8 章 或 只 进行 简单 的 回顾 。 第 7 章 (三 维 运 
动 估计 ) .第 10 章 (基于 内 容 的 编码 ) 第 11 章 (标量 编码 ) ,第 二 章 (立体 ) .第 14 章 (差错 控制 ) 
和 第 15 章 (视频 流 ) 也 可 用 做 视频 提高 课程 ,而 将 其 他 章节 作为 先 修 视 频 课程 。 在 所 有 情况 
下 ,加 * 号 的 节 都 可 以 跳 过 或 留 做 优秀 的 学 生 进 -- 步 研究 。 

在 第 1 章 到 第 14 章 的 末尾 给 出 了 习题 供 自 学 或 课 后 作业 使 用 。 附 录 D 给 出 了 部 分 习题 
答案 。 本 书 的 网 站 (www. prenhall. com/wang) 可 提供 用 来 生成 本 书 的 一 些 附 图 的 MATLAB 原稿 。 
教师 可 以 眉 改 这 些 原稿 以 生成 类 似 的 例子 。 这 些 原稿 也 帮助 学 后 了 解 基础 的 操作 。 可 以 从 该 
网 站 上 下 载 视频 序列 样本 ,以 使 学 生 可 以 通过 实际 序列 对 各 种 算法 的 性 能 进行 评价 。 网 站 上 
也 包含 了 一 些 用 标准 算法 压缩 的 序列 ,便于 教师 演示 不 同 码 率 下 不 同 技术 的 编码 效应 。 
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符号 一 览 表 
数学 符号 
[A] 吏 有 方 括号 的 粗 体 大写 罗 巧 字母 代表 算 阵 
a, A BALE RAG PS RAE 
LA]?, a? 矩阵 或 矢量 的 转 置 
[ait RRETA TROI 
det [A] JERELA] 的 行列 式 
lall 矢量 a 的 h 范 数 
RE 天 维 实数 空间 
ct KERREN 
zt KEKSE 
F 手写 大 写字 母 代表 随机 变量 
F 手写 粗 体 大 写字 母 代表 随机 矢量 天 =(F,, Foro, Fy i? 或 随机 序列 F iF, Ft 
Bley 数学 期 望 运 算 
Yy 对 于 所 有 
A 点 阵 
有 ARBARAN 
d (A) 和 的 密度 
[v] 为 人 生成 的 矩阵 
[u] 为 A' 生 成 的 矩阵 , [U] = (5Y]7) -1 
Via) AMRY ME 
视频 表示 
X=[8,Y,Z]7 三维 空 间 一 点 的 坐标 : Y, ZARA E BARREN 
x=[x, yl" SRE AAR RMA x My 分 别 代表 水 平 各 垂直 位 置 


m={m, oJ? 
k 
Wy d 


Wil y), 
Pala, y) 


Vela, y, 0) 
Way) 

Wola, yt) 
Yim, n, k) 


时 间 指数 ,连续 的 或 离散 的 

二 维 数 字 图 像 中 一 个 像素 的 离散 符 标 : m 和 分 别 代表 像素 的 列 各行 的 指数 

PR acta eae CAM) 

视频 序列 在 位 置 x MORR oA. RARE CREE OR A R= ERA 
RE. AVA SARA RE AN BE LS Lo ALTE S 

RR CARA Ai AG OLA ROT 

REL P RY (x, y, D) 的 顶 测 图 像 

用 米 栅 测 某 一 村 的 参考 由 

多 视角 系统 中 视角 v REK 

数字 视频 中 像素 位 置 为 (m，n) WW k SEU ATA 
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(a) 
SART 一- 

vw Ye 7 0 wame vy -[2,2] 

Abd ALR ACR ROAR LT 

fia ETHYL AR PERRO, f= 170, AEE Ca) R He 

Seth KERE MA ERREK, S, = 17A fg = 1/0, AREER A TH RER 

R 比特 率 ,对 于 视频 序列 单位 是 比特 /种 (bps), 对 于 图 像 单位 是 比 等/ 像素 (bpp), 对 于 -- 般 的 离散 信 源 
是 比 竺 采样 

RAR . 

foh AFAA EO, LIE FL (cp) 

h AAR LE qd 

fi RISA, CAN (cpm) He 

t 多 维 空间 的 频率 指数 。 对 于 视频 信号 ,= SA] 

Peles Ge 及。 V (siyy0 的 连续 空间 的 全 里 叶 变 换 (CSPT) 

Wier So fd Y Cosy DERRER BERST) 

Wales Sor f) Can, n, 本 的 离散 室 间 的 全 时 时 变换 (DSFT) 

Ves ff) 一般 用 于 表示 视频 信 叶 的 候 里 时 变换 ,可 以 是 (SPT,SSFT 或 TDSFT 

“eae 

KX) AXAN 6 到 时 间 @ 的 二 维 运 动 矢 量 。 如 果 n AL CI TSI DOA) DAY X, Y, Z AREN 
D,, Dy, D, 

Aand RI ALANA 4 H n 的 二 维 运动 矢量 。 和 如 果 4 和 4 已 知 ,简写 为 dx),d 的 xy SPD dadyo 
(xi) 代 表 运动 大 , 它 是 运动 参数 矢量 的 衣 数 。d(w) 也 用 来 表示 让 立 体 序列 中 丙 个 视角 之 间 的 视 
BRE 

w(x) FP IROL AOR RAL. wx) = x+ aa) wx; a) OUR RAL, CRIN BE a KEM 

88,8, SOREL LADERA Ae UNA, Z SE A 

ia 摄像 机 或 日 标 在 三 维 空间 的 旋转 低 阵 

T 拒 像 机 或 目标 在 三 维 空间 的 平移 矢量 ,了 = |, T, T)! 

F 摄像 机 的 焦距 

c 世界 坐标 下 的 摄像 机 中 心 











A 录 
视频 的 形成 感觉 和 表示 - -1 
彩色 感觉 和 规定 …… -1 
视频 的 捕捉 和 显示 … 5 
模拟 视频 光栅 …… 9 
模拟 彩色 电视 系统 4 





















MIE Stent Anan Le OO A 
多 维 连续 空间 信号 和 系统 
多 维 离散 空间 信号 和 系统 
视频 信号 的 频 域 特性 
人 类 视觉 系统 的 频率 响应 
未 结 
习题 
文献 目录 … 
视频 采样 … 
点 阵 理论 基础 
在 点 阵 上 采样 … 
视频 信号 的 采样 … 
摄像 机 和 显示 器 的 滤波 作用 … 
小 结 
习题 
文献 目录 … 
视频 采样 率 转换 Peer rer 
在 不 同 点 阵 上 采样 信号 的 转换 … 
视频 信和 叶 的 采样 率 转换 ………… -69 
80 


小 











5.4 












































场景 模型 

二 维 运动 模型 - 

小 结 - 

习题 ， 

文献 目录 … 

二 维 运动 估计 

JERE ce 

一 般 方法 

基于 像素 的 运动 估计 

块 匹配 算法 

可 变形 块 匹配 算法 

基于 网 格 的 运动 估计 

全 局 运动 估计 …… 

基于 区 域 的 运动 估计 - 

多 分 辨 率 运动 估计 …… 

运动 估计 在 视频 编码 中 的 应 用 … 145 
小 缚 和 145 
习题 … 146 
文献 目录 … 148 
三 维 运动 估计 151 
基于 特征 的 运动 估计 - 151 
直接 运动 估计 … 158 
迭代 运动 估计 165 
ON ee 166 
习题 ee 166 
文献 目录 167 
视频 编码 基础 169 
编码 系统 概述 … 169 
概率 论 和 信息 论 中 的 基本 概念 “191 
信 源 编码 的 信息 理论 …… .176 
二 进 制 编码 181 
标量 量化 … 187 
矢量 量化 … + 192 
小 结 … 

习题 … 

文献 目录 … 

基于 波形 的 视频 编码 … 

基于 块 的 变换 编码 ， 204 
预测 编码 220 


第 10 章 基于 


第 11 章 可 分 级 视频 编码 … 


9.3 采用 时 间 预 测 和 变换 编码 的 视频 编 但 ， 
94 Ne ve 

9.5 习题 … 
9.6 文献 目录 
内 容 的 视频 编码 … 






















10.1 
10.2 任意 形状 区 域 的 纹理 编码 
10.3 ”形状 与 纹理 联合 编码 ……………… 
10.4 基于 区 域 的 视频 编码 -… 
10.5 基于 物体 的 视频 编码 
10.6 基于 知识 的 视频 编码 … 
10.7 语义 视频 编码 . 
10.8 分 居 编 码 系统 
10.9 AMAR reese 
10.10 习题 ……… 
10.11 文献 目录 > 











11.1 可 分 级 性 的 基本 模式 … 
11.2 基于 物体 的 可 分 级 性 
11.3 基于 小 波 变换 的 编码 … 
11.4 小 结 … 
11.5 习题 … 
11.6 XREF o 


第 12 章 ”立体 和 多 视 序 列 处 理 … 


第 13 章 















12.1 深度 感觉 四 
12.2 立体 成 像 原理 … 
12.3 ”位 差 估计 ……… 
12.4 中间 视 图 合 

12.5 立体 序列 
12.6 小 结 …: 
12.7 习题 
12.8 文献 目录 ， 














13.1 标准 化 ov 
13.2 采用 H.261 和 H.263 的 视频 电话 . 
13.3 ”可 视 通 信 系统 的 标准 ………… 
13.4 采用 MPEG-1 的 消费 视频 通信 - 
13.5 采用 MPEG-2 的 数字 电视 ……… 
13.6 采用 MPEG-4 的 音 视频 对 象 编码 








13.7 视频 比特 流 语法 
13.8 采用 MPPG-7 的 多 媒体 内 容 
13.9 小 结 
13.10 JE 
13.11 文献 目录 … 
第 14 章 视频 通信 中 的 差错 控制 …: 
14.1 动机 和 方法 概述 ……- 
14.2 典型 的 视频 应 用 系统 和 通信 
14.3 ”传输 层 差 错 控制 
14.4 差错 复原 编码 … 
14.5 解码 器 错误 隐藏 
14.6 ”编码 器 -解码 器 交互 的 差错 控制 
14.7 11.263 和 MPEG -4 中 的 凑 错 复原 工具 


描述 
































































14.8 ASR 
14.9 习题 …… 
14.10 文献 日 录 … 

第 15 章 因特网 和 无 线 IP 网 络 上 的 流 视 频 397 
15.1 视频 流 系统 的 结构 ……………… 397 
15.2 ”视频 庄 缩 oer eee eee eee 399 





15.3” 流 视频 的 应 用 层 Qos 控制 … 
15.4 连续 媒体 发 布 服务 ， 
15.5 流 服务 器 … 
15.6 媒体 同步 人 
15.7 流 视 频 协 议 a 414 
15.8 无 线 中 网 络 上 的 流 视频 v 
15,9 水 缚 和 
15.10 文献 目录 ecese 
附录 A ” 空 时 梯度 的 确定 - 
Al 一 - 阶 和 二 阶梯 度 - 
A.2 索 贝 尔 算 子 ev 
A3 高 斯 差分 滤波 器 - 
附录 B 梯度 下 降 法 ……… 
B.1 一 阶梯 度 下 降 法 ， 
B.2 REFER- 
B.3 牛顿 法 ooe 
B.4 午 顿 - 拉 天 森 算 法 
B.5 文献 目录 …… 
附录 C ”缩写 词汇 表 - 
附录 D 部 分 习题 答案 - 
.14， 








第 1 章 视频 的 形成 .感觉 和 表示 


在 第 1 章 中 ,我 们 将 叙述 什么 是 视频 信号 ,怎样 摄取 和 感知 它 ,怎样 存储 和 传输 它 ,以 及 什 
么 是 决定 信号 的 质量 和 带宽 (从 而 决定 了 数码 率 ) 的 最 重要 的 参数 。 我 们 首先 介绍 色彩 感觉 和 
再 现 的 基础 物理 学 (1.1 节 ), 然 后 叙述 视频 捕 提 和 显示 的 原理 以 及 典型 设备 (1.2 节 )。 大 家 将 
看 到 ,模拟 视频 是 以 某 种 光栅 扫描 格式 捕 提 存储 和 传输 的 ,这 种 格式 或 者 是 乏 行 扫描 或 者 是 
隔行 扫描 。 作 为 例子 ,我 们 将 回顾 模拟 彩色 电视 (TV) 系 统 (1.4 节 ) ,并 且 深 入 说 明 呈 些 关 键 的 
参数 (例如 帧 率 和 行 率 ) 是 如 何 选 择 的 ,彩色 电视 信号 的 频谱 内 容 是 什么 ,信号 的 不 同 分 景 如何 
复 用 为 一 个 复合 信和 号。 最 后 ,1.5 节 介绍 TTU-R BT.601 视频 格式 (过 去 称 CCIR601) , 它 是 模拟 
彩色 电视 信号 的 数字 化 形式 。 我 们 给 出 在 选择 不 同 的 数字 化 参数 时 的 一 些 考 虑 。 同时 也 介绍 
几 个 其 他 的 数字 视频 格式 ,包括 高 清晰 度 电视 (HDTV)。 本 章 还 概述 了 为 不 同 的 应 用 所 开发 的 
LESKE YE Be PORE I OO AST ZK 

本 章 的 目的 是 使 读者 得 到 关 半 模拟 和 数字 视频 的 背景 知识 ,并 且 了 解 一 般 的 视频 系统 设 
计 问 题 。 因 此 ,有 意 采取 了 定性 的 而 非 定 重 的 氢 述 。 在 后 面 各 章 下 ,我 们 将 回 到 本 章 所 提 到 的 
某 些 问题 并 给 出 较 严 格 的 表述 和 解释 。 














1.1 彩色 感觉 和 规定 














视频 信号 是 从 动态 的 三 维 景物 投影 到 视频 摄像 机 图 像 平面 上 的 一 个 二 维 图 像 序列 。 一 个 
视频 帧 中 任何 -点 的 彩色 值 记 录 了 在 所 观察 的 景物 中 一 个 特定 的 三 维 点 所 发 出 或 反射 的 光 。 
为 了 理解 彩色 值 的 物理 意义 ,本 节 回 顾 一 下 基础 的 光 物理 学 ,同时 对 表征 光 及 其 彩色 的 属性 加 
以 描述 。 我们 也 要 介绍 人 类 彩色 感觉 的 机 理 , 以 及 规定 彩色 信号 的 不 同方 法 。 


1.1.1 光 和 彩色 


光 是 由 入眼 可 以 感觉 的 ,波长 在 380 ~ 780 纳米 (nm) 范 团 内 的 电磁 波 组 成 的 。 光 的 能 基 是 
用 光 道 景 测 姐 的 ,单位 是 瓦特 ,人 它 是 能 量 发 射 的 速率 。 与 我 们 所 感觉 的 光 的 亮度 直接 相关 的 是 
光 的 辐射 强度 ,定义 为 以 特定 方向 辐射 到 单位 立体 角 上 的 光 通 量 ,度量 单位 是 瓦特 /立体 角 。 
光源 通常 能 发 射 某 -波长 范围 内 的 能 量 , 并 且 其 强度 可 以 在 时 间 和 空间 FERE. EARP, R 
们 使 用 符号 C(X,:X) 表 示 光 的 辐射 强度 分 布 , 它 指定 在 波长 为 ZE X= (X,Y, 7) 和 
时 间 时 光 的 亮度 。 

光 的 彩色 感觉 决定 于 其 光谱 成 分 ( 即 它 的 波长 组 成 )。 例如 ,能 量 集中 在 700 mm 附近 的 光 
显示 红色 ,在 整个 叮 视频 带 内 具有 相同 能 量 的 光 显示 白色 。 一 般 来 说 ,具有 非常 窑 的 带宽 的 光 
称 为 谱 色 , 另 一 -方面 ,白光 被 称 为 非 彩色 的 。 











2 视频 处 理 与 通信 





有 两 种 类 型 的 光源 :发 射电 磁 波 的 照明 光 省 和 反射 人 射 波 的 反射 光源 93。 照明 光源 包括 
太阳 .灯泡 、 电 视 监 视 器 ,等 等 。 上 照明 光源 的 彩色 感觉 取决 于 它 所 发 射 能 量 的 波长 范 判 。 照 明 
光 遵循 相 加 规划 : 几 个 混 利 的 照明 光源 的 彩色 感觉 取决 于 所 有 光源 光谱 的 总 和 。 例 如 , 红 光 、 
绿 光 和 蓝光 以 正确 的 比例 组 合 起 来 形成 白色 光 。 

反射 光源 是 那些 能 反射 人 射 光 ( 它 本 身 电 可 以 足 反 射 光 ) 的 光源 。 当 - 东 光 照 到 物体 上 
时 ,在 其 个 波长 范围 内 的 能 量 被 吸收 ,而 剩 下 的 则 被 反射 出 来 。 反 射 光 的 彩色 决定 于 人 射 光 的 
光谱 成 分 和 被 吸收 的 波长 范围 。 最 值得 注意 的 反射 光源 是 彩色 染料 和 颜料 。 反 射 光源 遵循 相 
减 规则 : 几 种 混和 的 反射 光源 的 彩色 感觉 取决 于 剩余 的 ,未 被 吸收 的 波长 。 例 如 ,如 果 和 人 射 玫 
是 白色 的 ,那么 吸收 700 nm 附近 波 民 的 染料 看 起 来 是 吉 色 的 。 人 在 这 种 意义 上 ,我 们 说 青色 是 
红色 的 补 色 ( 即 生 色 减 去 红色 )。 类 似 地 , 员 色 和 黄色 分 别 是 绿色 和 蓝 色 的 补 色 。 青 色 hEm 
黄色 染料 混和 形成 黑色 , 它 吸 收 整 个 可 视 光 谱 - 


1.1.2 人 类 的 彩色 感觉 


入 类 对 光 的 感觉 开始 于 位 于 视网膜 (眼球 内 部 的 后 表层 ) 的 感光 细胞 。 有 两 种 类 型 的 感光 
细胞 ; 锥 状 细胞 和 杆 状 细胞 。 匆 状 细胞 在 亮光 下 起 作用 ,能 感受 彩色 色调 ; 杆 状 细胞 工作 在 低 
环境 光 下 , 只 能 够 提取 亮度 信息 。 来 自视 网 膜 的 视觉 信息 通过 视神经 纤维 传送 到 大 脑 的 视觉 
皮层 ,在 那里 完成 视觉 的 处 明和 埋 解 。 有 三 种 类 型 的 詹 状 细胞 ,它们 在 可 见 光谱 上 只 有 重 玲 的 
通 带 ,其 峰值 分 别 位 于 红色 (570 mm 附近 )、 绿 公 (535 nm 附近 ) 和 监 色 (445 nm 附近 ) 波 长 ,如 图 
1.1 所 示 。 这 些 感光 细胞 对 入 射 光 分 布 的 响应 可 用 如 下 公式 描述 : 


C = [eda A i reg,b (1.1.1) 



































这 里 ,a (2),@s(4),as(4) 是 指 红 色 . 雏 色 利 蓝 色 锥 状 细胞 的 频率 响应 瑟 相 对 吸收 函数 。 这 三 
种 类 型 的 感光 细胞 的 组 合 可 使 类 感知 任何 彩色 。 这 意味 着 被 感知 的 彩色 只 依赖 于 C, Cs 
G 这 三 个 数 ,而 不 是 整个 的 光谱 。 这 就 是 所 谓 彩色 视觉 的 三 感光 细胞 原理 ,是 由 Young 首先 
提出 的 [17]。 

描述 和 类 彩色 感觉 的 属性 有 两 个 :亮度 和 色 度 。 亮度 指 被 感知 的 光 的 明亮 度 , 它 是 与 可 视 
频带 中 的 总 能 量 成 正比 的 。 色 度 描述 被 感知 的 光 的 颜色 和 深浅 , 它 足 由 光 的 波长 成 分 决定 的 。 
色 度 进一步 由 两 个 属性 表征 ;色调 和 饱和 度 。 色 调 指 彩色 的 颜色 , 它 是 由 光 的 峰值 波长 决定 
的 , 而 饱和 度 指 的 是 颜色 有 多 纯 , 它 是 由 光谱 的 范围 或 带宽 决定 的 。 在 本 书 中 ,我 们 用 “彩色 ” 
这 个 词 指 光 的 亮度 和 色 度 这 两 个 属性 ,尽管 通常 彩色 这 个 词 只 是 指 光 的 色 度 。 

实验 表明 在 入 类 视觉 系统 (HYS) 中 存在 第 二 个 处 理 阶段 , 它 把 锥 状 纪 胞 获得 的 三 个 彩色 
值 转换 成 一 个 与 亮度 成 正比 的 值 和 另外 两 个 响应 于 色 度 感觉 的 值 , 这 就 是 所 谓 的 HVS 反 彩 色 
模型 [2,8]。 已 经 发 现 同样 大 小 的 能 景 在 不 同 的 波长 会 产生 不 同 的 亮度 感觉 ,这 种 依赖 于 波长 
的 亮度 感觉 的 变化 用 相对 亮度 效率 顺 数 a, (4) 表征 ,也 如 图 1.1 所 了 示 。 它 本 质 上 是 所 有 三 种 
类 型 锥 状 细胞 频率 响应 的 和 。 我 们 可 以 看 到 绿色 波长 对 亮度 感觉 的 贡献 最 大 ,其 次 是 红色 波 
长 ,而 蓝 色 波长 最 小 。 亮 度 (通常 用 了 表示) 与 入 射 光谱 的 关系 是 : 























D 照明 种 反射 光源 也 分 别称 为 原 发 和 继 发 光源 。 我 们 不 使 用 这 些 术 语 是 为 了 避免 与 交 有 关 的 原色 相 泥 消 。 在 其 他 
资料 中 ,照明 和 反射 光 分 别 被 称 为 四 色 和 减 色 。 
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Y = [Ca (a) dà (1.1.2) 
在 上 述 公式 中 ,我 们 忽略 了 时 间 和 空间 的 变化 ,因为 我 们 只 关心 在 问 定 的 空间 和 时 闻 位 置 上 的 
彩色 和 党 度 感觉 。 我 们 也 路 去 了 通常 与 每 个 等 式 联系 的 比例 因子 , 它 取 决 于 描述 彩色 强度 和 
亮度 的 单位 。 
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图 1.1 人 类 视网膜 中 三 类 锥 状 细胞 的 频率 响应 和 亮度 
效率 函数 ,图 中 蓝 色 响应 曲线 被 放大 了 20 售 


1.1.3 彩色 混合 的 三 基色 原理 
彩色 物理 学 中 一 个 非常 重要 的 发 现 是 大 多 数 彩色 可 由 适当 选择 的 三 种 基色 混和 产生 。 这 
就 是 所 谓 彩 色 混 和 的 三 基色 原理 ,首先 由 Maxwell 在 1855 年 [8,16] 给 出 证 明 。 $ OG ,k=1,2,3 
代表 三 种 基色 源 的 彩色 , C 是 一 种 给 定 的 彩色 。 那么 该 原理 实质 上 是 说 : 
Cz DRG (1.1.3) 


这 里 T, 是 配 出 彩色 C 所 需 的 三 种 基色 的 量 值 , 称 为 三 色 激励 值 。 一 般 来 说 , 某 些 7, 可 以 是 
负 的 。 假 定 只 有 T 是 负 的 ,这 意味 着 通过 混合 C,, C, C 不 能 配 出 C, 但 是 可 以 TiC + 
TC, 配 出 6+181C:。 实 际 上 应 该 这 样 来 选择 基色 , 即 能 够 通过 基色 正 的 组 合 产生 大 多 数 
的 自然 彩色 。 照 明光 源 景 流行 的 基色 系 包括 红色 ,绿色 和 蓝 色 , 称 为 RGB 基色 。 反 射 光 源 最 
通常 的 基色 系 包括 青色 \ 品 色 和 黄色 , 称 为 CMY 基色 。 事实 上 ,RCB 和 CMY 基色 系 是 互补 的 ， 
也 就 是 赔 混 合 一 个 色 系 中 的 两 种 彩色 会 产生 另外 一 个 色 系 中 的 一 种 彩色 。 例 如 ,红色 和 绿色 
混合 会 产生 黄色 。 这 种 互补 信息 可 以 用 一 个 色 轮 给 则 最 好 的 图 示 ,这 个 图 可 在 许多 图 像 处 理 
书籍 中 找到 ,例如 参考 文献 [8,3]。 

对 于 一 个 选 定 的 基色 系 ,一 种 确定 任何 彩色 三 色 激 盛 值 的 办 法 是 首先 为 基色 C, i= 1,2,3 
确定 彩色 匹配 函数 m (a). 这 些 函数 对 于 整个 可 视频 带 内 的 各 个 波长 4 描述 了 其 谱 色 的 三 
色 激 励 值 ,并 且 可 在 受 控 观测 条 件 下 通过 视觉 实验 确定 。 然后 ,具有 光谱 C(4) 的 任何 彩色 的 
三 色 激 励 值 可 由 下 式 得 到 [8]: 
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T, = [CO mA) di = 1,23 (1.1.4) 


ATAARE ERAT MEE, EAA E R ROUA E TEÁS e 

[SRT EAL A. OW RA BENE, BRL DIE = ME 
感 器 ,其 频率 响应 类 似 丁 所 选 基 色 系 的 彩色 匹配 函数 。 Boe] H AA BRR RE 
子 滤波 器 来 实现 。 类 似 地 ,为 了 显示 “ 幅 彩 色 图 像 ,显示 设备 必须 发 出 三 束 具有 适当 强度 的 所 
选 基色 的 光束 ， 实 际 上 ,是 用 电 二 来 激发 具有 红色 、 绿 色 和 监 色 的 荧光 粉 。 日 前 所 有 的 显示 系 
统 都 采用 RGB 基色 ,尽管 为 基色 规定 的 标准 光谱 可 能 会 有 少许 不 同 。 同样 地 ,彩色 打印 机 可 
以 通过 以 适当 比例 混合 共有 所 选 基色 的 三 种 颜料 米 产 生 不 同 的 彩色 。 多 数 打 印 机 采用 CMY 
基色 。 为 了 更 鲜艳 和 宽 荡 围 的 彩色 下 了 观 , SREDINE CMY 基色 中 增加 了 黑色 (K), 从 
而 采用 4 种 基色 这 就 是 所 谓 的 CMYK W, ERE ASC A 
1.1.4 由 三 色 激励 值 规定 彩色 

三 色 激 励 值 ”彩色 的 激励 表示 规定 了 为 产生 期 望 的 彩色 所 需 昌 的 三 基色 的 比例 系数 , 即 
公式 1.1.3 中 的 有 。 为 了 使 彩色 的 规定 独立 于 基色 的 绝对 能 晤 ,这些 值 应 该 册 一 化 ,使 得 当 
Te=1,k=1,2,3 时 对 应 具有 单位 能 最 的 基准 白色 (所 有 波长 的 能 其 相同 )。 当 我 们 采用 RGB 
基色 时 ,二 色 激 励 值 通常 记 为 R,6 AB, 

KEE ”上 土 述 激励 表 朱 混合 了 彩色 的 亮度 和 色 度 属性 。 为 了 只 测量 光 的 色 度 信 息 (色调 
AMIGA) ,彩色 坐标 定义 为 : 














T, 
ASPETT 

由 十 而 + + 69=1, 所 以 两 个 彩色 值 就 足以 规定 彩色 的 色 度 。 

显而易见 ,网 像 点 的 彩色 值 依赖 于 采用 的 基色 。 为 了 使 彩色 的 措 述 和 规定 标准 化 ,已经 定 
义 了 儿 种 标准 的 基色 系统 。 例 如 ,彩色 科学 家 国际 组 织 CET 定义 了 一 个 CIE RGR 基色 系统 ， 
Eta 700( Ry ),546. 106, ) #1 435.8( By) nm 波长 的 彩色 

RRA RAI TEE Re Ee Ek RA 
H- BIA, AT TEAR , C, B) ENTER CRR. ARE BER, 6G,，8B) 坐 标 转换 到 ( C， 
MY) E. BOR — ApoE ER HY HD Be RB BPE FH) TRAD HB A E BH 
RR ZA AE «RS Pie ak SP HE E A Te HES OY LHR). 


1.15 由 亮度 和 色 度 属性 规定 彩色 


道 常 用 于 彩色 显示 的 RGB 基色 混合 了 光 的 亮度 和 色 度 属 忻 。 在 许多 应 用 中 ,为 了 能 够 更 
高 效 地 处 理 和 传输 彩色 信和 号, 希望 将 亮度 与 色 度 分 量 分 离开 来 描述 -一 种 彩色 。 为 了 达到 这 个 
目的 ,人 们 开发 了 各 种 二 分量 彩 色 坐 标 ,其 中 一 个 分 量 反 映 亮 度 . 另 外 两 个 分 量 共 同 表示 色 度 
和 饱和 度 。CIE XYZ 基色 就 是 这 样 的 一 个 坐标 ,其 中 Y 直接 度量 亮度 强度 。 这 个 坐标 系 中 的 
(X, Y, ZM CIE RGB 坐标 村 中 的 (RR, 6 ,8) 值 的 关系 为 ; 


k = 1,2,3 (1.1.5) 





























@ CIE Æ Commission Intemationale de L’ Eclariage: 的 缩写 (国际 照明 委员 会 )， 
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-0.897 1.426 -0.014 
Lz. -0.468 0.089 1.009 
除了 能 分 离 亮 度 和 色 度 信息 ,CIE XYZ 系统 的 另 一 个 优点 是 几乎 所 有 的 可 见 彩色 都 能 由 
非 负 的 激励 值 规定 ,而 这 正 是 人 们 期 望 的 特性 。 问 题 是 这 样 定义 的 ,了 ,2 彩色 并 不 能 由 实 
际 的 彩色 激励 所 实现 。 因 此 ,XYZ 基色 不 能 直接 用 于 产生 彩色 ,而 它 主 要 用 于 定义 其 他 的 基色 
和 彩色 的 数字 说 明 。 正 如 我 们 将 要 看 到 的 ,用 于 传输 彩色 电视 信号 的 彩色 坐标 ,例如 YIQ 和 
YUV, 都 是 从 XYZ 坐标 导出 的 。 
也 有 其 他 的 彩色 表示 , 除 亮 度 外 直接 定义 色 度 和 饱和 度 。HSI 坐标 就 是 其 中 之 -., 这 里 
“H" 表 示 色 度 ,“S" 表 示 饱 和 度 , "也 表示 强度 (等 价 于 亮度 )9。 尽 管 这 种 彩色 坐标 清楚 地 分 离 
了 光 的 不 同属 性 ,但 是 与 激励 值 是 非 线性 关系 并 鼎 很 难 计算 。Conzalez 和 oods[3] 详 细 介绍 
了 各 种 彩色 坐标 及 它们 之 问 的 转换 。 


| | 2.365 -0.515 0.005 
了 | = 








R 
| (1.1.6) 
B. 




















1.2 视频 的 捕捉 和 显示 


1.2.1 彩色 视频 成 像 原 理 


在 定义 了 什么 是 光 以 及 如 何 感 知 和 表征 它 以 后 ,我 们 现在 可 以 开始 理解 视频 信和 号 的 意义 
了 。 简 言 之 ,视频 @ 记录 了 从 一 个 观测 系统 (人 有 眼 或 摄像 机 ) 所 观测 的 场景 中 的 物体 发 射 或 反 
射 的 光 的 强度 C(X,1,2)。 一 般 地 说 ,该 强度 在 时 间 和 空间 上 都 有 变化 。 这 里 我 们 假定 场景 
中 有 某 种 照明 光源 。 将 则 ,将 没有 入 射 光 也 没有 反射 光 , 整 个 图 像 将 是 黑 的 。 当 由 摄像 机 观测 
场景 时 ,只 有 摄像 机 敏感 的 那些 波长 是 可 见 的 。 令 (4) 表 示 摄 像 机 的 光谱 吸收 函数 ,那么 摄 
像 机 可 见 的 三 维 室 间 中 的 光 强 度 分 布 为 ; 


F(X) -F CCK tA) a CAA (1.2.1) 


在 任何 时 间 :处 ,被 摄像 机 摄取 的 图 像 函 数 都 是 在 三 维 场景 中 的 光 分 布 在 二 维 图 像 平面 

CHRE, SPC ) 表 示 摄 像 机 的 投影 算 子 ,那么 三 维 点 义 投 影 的 二 维 位 置 由 x=P(X) 给 出 。 
进步 , 令 P-'(.) 表 示 逆 投影 算 子 ,那么 多 = 刀 -!(x) 就 规定 了 与 二 维 点 x 相 应 的 三 维 位 置 。 
这 样 役 影 图 像 与 三 维 图 像 的 关系 为 : 
Y (POX), 1) = BX, 0) RY Ot) = FOP) (4.2.2) 
BOY (x, 1) 称 为 视频 信和 号。 我 们 可 以 看 到 , 它 描 述 了 在 时 间 + 投影 到 图 像 平面 x 的 三 维 位 置 
站 的 辐射 强度 。 通 常 ,视频 信号 具有 一 个 有 限 的 时 间 和 空间 范围 。 空 间 范围 依赖 于 摄像 机 的 
观测 区 域 ,而 时 间 范 围 依 赖 于 场景 被 摄取 的 持续 时 间 。 图 像 平 面 中 的 ~ 点 被 称 为 像素 (pixel, 
即 图 像 元 素 ) 或 简单 地 记 为 pl@。 对 于 大 多 数据 像 系 统 ,投影 算 子 P( - ) 可 近似 为 -个 透视 投 
影 (这 个 问题 将 在 $.1 节 中 详细 讨论 ) 。 

































































D HSI 坐标 也 称 为 HSV, 这里“VY" 表 示 强 度 值 。 

”在 本 节 中 , 当 我 们 提 到 "视频 "而 不 加 其 他 限定 时 ,我 们 指 的 是 一 个 被 记录 的 运动 图 像 序列 。 

D ”严格 地 讲 .符号 pixel 或 pel 只 定义 在 数字 图 售 学 中 ,在 那里 视频 记录 中 的 每 一 幅 图 像 或 每 “由 由- .个 有 限 的 一 维 
BARRER. 
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如 果 摄 像 机 吸收 函数 等 同 王 人 类 的 相对 党 度 效率 函数 , 即 a, (à) = a, (A), MERE 
像 。 如 果 吸 收 两 数 在 个 容 带 中 是 非 零 的 ,出 形 成 单 全 (或 单 色调 ) 图 像 。 为 了 感 扼 所 有 的 上 
见 彩色 ,根据 二 此 色 的 视觉 原理 ( 见 1.1.2 节 ) ,需要 二 个 频率 响应 类 似 于 所 选 基色 的 彩色 匹配 
函数 的 传感器 、 如 前 所 述 ,多 数 彩 色 概 像 仙 利 用 红色 、 绿 色 和 蓝 色 传 周 器 来 获得 彩色 。 

如 果 摄 像 机 只 有 一 个 亮度 传感器 ,那么 (x,， 幻 是 表示 授 影 光亮 度 的 标量 函数 。 在 本 书 
中 ,我 们 用 灰 度 级 这 个 术语 来 表示 这 样 一 幅 图 像 , 术 语 洋 和 白 将 严格 地 用 于 描述 只 有 两 种 彩色 
黑 和 白 的 图 像 。 鸭 方面, 如果 摄像 机 有 二 个 分 离 的 传感器 ,每 个 接收 一 种 所 选 的 基色 ,及 
么 信和 就 足 一 个 在 每 个 点 包含 一 个 彩色 值 的 矢量 函数 。 我 们 可 以 利用 前 面 章 节 中 所 介绍 的 
他 的 彩色 坐标 (每 个 包含 三 个 和 值 ) 来 表征 光 , 而 不 是 直接 规定 这 些 彩 色 值 。 

注意 ,有 时 为 了 特殊 的 目的 ,我 们 可 以 采用 频率 不 在 人 眼 可 见 范围 内 前 传 感 禹 。 例 如 在 X 
光 成 像 中 ,传感器 要 对 X 光 的 光谱 范围 很 敏感 。 另 --- 方 面 , 红 外 线 摄像 机 对 红外 区 域 敏 感 ,能 
化 很 低 的 环境 光 下 工作 。 这 种 摄像 机 能 够 “看 到 "人 了 眼 不 能 感觉 的 物体 。 另 一 个 例子 是 测 距 摄 
像 机 ,上 其 传 感 嚣 发 出 激光 呆 并 测量 它 到 达 物 体 相 返 回 传 感 涡 所 和 需 的 时 间 。 因 为 这 个 来 回 的 时 
间 正 比 于 传感器 到 物体 表面 的 距离 ,所 以 测 距 图 像 内 任何 一 点 的 图 像 党 度 就 描述 了 相应 的 二 
维 点 到 投 像 机 的 距离 或 射程 。 


1.2.2 视频 摄像 机 


目前 所 有 的 模拟 摄像 机 都 是 一 帧 一 帧 地 捕 提 视频 , 帧 与 局 之 里 有 一 定 的 时 间 间 隔 。 一 些 
摄像 机 (例如 电视 摄像 机 和 消费 类 的 便携 式 视频 摄像 机 ) 通 过 二 | 描 具 有 一 定 行 间隔 的 相继 的 行 
来 获得 一 帧 。 类 似 地 ,所 有 显示 设备 都 以 相继 的 一 系列 的 帧 显示 视频 ;对 于 电视 监视 器 ,扫描 
线 相继 地 同 扫 形 成 分 离 的 行 。 这 种 报 取 和 显示 机 制 是 根据 如 下 事实 设计 的 , 即 HYS 不 能 感知 
很 高 频率 的 时 间 利空 间 的 变化 (HVS 的 这 个 性 质 将 在 2.4 节 中 更 深信 地 讨论 )。 

人 有 两 种 基本 类 型 的 摄像 机 :( 划 基于 光电 管 的 摄像 机 ,例如 光 导 摄像 管 . 氧 化 铬 摄像 管 或 正 
析 摄 像 管 ;(2) 回 态 传感器 ,例如 电荷 硝 合 器 件 (CCD)。 摄 像 机 镜头 把 场景 中 的 图 像 育 焦 到 报 
像 机 析 像 管 的 光敏 表 而 ,出 它 将 光 信 号 转换 成 电信 号 。 析 像 管 的 光敏 表面 一 般 是 用 电子 束 或 
其 他 的 电子 方法 一 行 一 行 地 扫描 { 称 为 光山 扫描 ), 然 后 每 一 幅 中 的 扫描 行 被 转换 成 用 不 同 电 
压 代 表 不 同 光 强 度 的 电子 信号。 因此 不 同 的 扫描 行 是 以 相继 的 方式 在 略微 不 同 的 时 间 上 摄取 
的 .对 于 逐 行 扫 撕 ,电子 束 是 相继 地 扫描 每 一 行 ;而 对 于 隔行 扫描 ,电子 束 是 在 半 帧 (一 场 ) 的 
USTED - 行 扫描 一 行 ,然后 扫描 另外 一 半 的 行 (我 们 将 在 1.3 节 详 细 讨 论 光栅 打 描 。) 对 于 CCD 
撮 像 外, 光敏 表面 由 二 维 传感器 怎 阵 组 成 ,每 个 传感器 对 应 一 个 像素 ,到 达 每 个 传感器 的 光 信 
号 被 转换 成 一 个 电信 号 。 在 每 帧 时 间 内 摄取 的 传感器 值 首 先 存 储 在 缓冲 器 中 ,然后 一 次 一 行 
地 相继 读 出 ,以 形成 光栅 信号 。 与 基于 光电 管 的 摄像 机 不 同 ,同一 帧 中 所 有 读 出 的 值 是 同时 被 
摄取 的 ， 对 于 隔行 扫描 的 摄像 机 ,每 场 中 的 扫描 行 是 被 交替 读 出 的 。 

为 了 摄取 彩色 ,通常 有 三 种 类 型 的 光敏 表面 或 CCD 传感器 ,每 个 传感器 的 频率 响应 决定 
村 所 选 基 色 的 彩色 匹配 丙 数 ,如 1.1.3 节 所 述 。 为 了 减少 成 本 ,多 数 消费 类 摄像 机 采用 单 片 
CCD 进行 彩色 成 像 。 这 是 通过 把 每 个 像素 的 传感器 区 域 分 成 3 个 或 4 个 闻 区 域 ,每 个 子 区 域 
感应 于 不 同 的 基色 实现 的 。 摄 到 的 一 个 彩色 信号 可 以 转换 成 一 个 亮度 信号 和 两 个 色 度 信号 ， 
话 作 为 分 量 彩色 图 像 发 送出 去 ,或 者 复 用 成 一 个 复合 信号 。 这 方面 的 内 容 将 在 1.2.4 节 进 一 
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现在 许多 摄像 机 是 基于 CCD 的 ,因为 它们 为 获得 同样 的 空间 分 辩 率 可 以 比 基 于 光电 管 的 
摄像 机 做 得 更 小 和 喝 轻 。CCD 技术 的 优点 使 它 能 够 以 很 小 的 攻 片 摄取 很 高 分 辩 率 的 图 像 矩 
阵 。 例 如 ,消费 者 使 用 的 便携 式 摄像 机 通常 采用 38 万 像素 的 1/3 英寸 的 CCD ,而 200 万 像素 的 
2/3 英 寸 的 CCD 已 经 开发 用 于 HDTV。 基 于 光电 管 的 摄像 机 较 大 旦 较 昂 贵 ,只 用 于 一 些 特 殊 的 
应 用 场合 ,例如 需要 很 高 分 辨 率 或 需要 在 低 环 境 光 下 有 高 敏感 度 的 场合 。 除 了 彩色 成 像 电路 ， 
多 数 摄像 机 还 能 实现 彩色 坐标 转换 (从 RGB 转换 到 亮度 和 色 度 ) 以 及 复合 亮度 和 色 度 信号 。 
为 进行 数字 输出 ,也 包含 有 模拟 到 数字 (A/D) 转 换 。 包 括 在 专业 视频 摄像 机 中 的 这 种 典型 处 
型 如 图 1.2 所 示 。 该 摄像 机 提供 了 模拟 和 数字 两 种 输出 模式 ,而 模拟 输出 又 包括 分 量 (CN) 和 
复合 (CS) 两 种 格式 。 为 了 提高 图 像 质量 ,该 摄像 机 引进 了 数字 处 理 技术 。 用 于 三 个 CCD 中 每 
一 个 CCD 的 A/D 和 预 处 理 ( 包 括 点 和 区 成 的 处 理 ,数据 检测 和 校正 ) 都 工作 在 CCD 的 输出 速率 
Sao 在 它 后 面 是 以 2 售 CCD 输出 速率 进行 的 图 像 增强 和 非 线性 滤波 。 为 了 匹配 标准 摄像 机 
















































































































































































的 输出 速率 大 (对 于 1.5.2 节 讨论 的 ITU-R BT.601 数字 视频 ,= 13.5 MHz), ER SaB] fa 
的 速 闵 转换 。 关 于 视频 摄像 机 和 显示 技术 的 详细 说 明 见 文献 [5]。 
EAA 
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L # || 区 | | = j$ TL | aS 
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B F Da Hepi 
-~ 输出 
图 1.2 专业 彩色 视频 撤 像 宙 方 块 示意 图 
1.2.3 视频 显示 


为 显示 视频 ,最 普通 的 设备 是 阴极 射线 管 (CRT)。 在 CRT 监视 器 中 ,电子 枪 一 行 -- 行 地 向 
屏幕 发 射电 子 旧 以 激励 菊 光 粉 ,其 强度 正比 于 在 相应 位 置 的 视频 信号 的 强度 。 为 了 显示 彩色 
图 像 ,二 个 电子 枪 发 射 三 个 电子 束 ,在 每 个 位 置 以 期 当 的 维度 组 合 激励 红色 绿色 和 落 色 获 光 
粉 。 为 了 更 精确 ,每 个 彩色 像素 由 排列 成 小 三 角形 的 二 个 元 素 组 成 , 称 之 为 三 元 组 。 

CRT 能 产生 有 很 大 动态 范围 的 图 像 ,因此 显示 的 图 像 可 以 很 亮 ,足以 在 白天 或 在 远 处 观 
看 。 然 而 ,为 使 电子 到 达 屏 幕 的 边界 , CRT 的 深度 需要 大 致 与 屏幕 的 宽度 相当 。 这 样 大 屏幕 监 
视 器 就 太 庞大 了 ,不适 于 应 用 在 小 型 轻便 的 设备 中 。 为 克服 这 个 问题 ,人 们 开发 了 各 种 不 同 的 
平板 显示 器 。 一 种 流行 的 设备 是 液晶 显示 器 (LCD)。LCD 的 主要 思想 是 通过 施加 电场 改变 光 
学 特性 进而 改变 液晶 的 亮度 或 彩色 。 电 场 由 一 个 晶体 管 阵列 产生 或 剧 新 ,例如 在 LCD 中 采用 
$k FE AE (TET) ROR SE 等 离子 技术 消除 了 对 秒 膜 晶体 管 的 需求 ,从 而 使 
大 屏幕 LCD 成 为 可 能 。 也 有 平面 CRT 的 新 设计 。 关于 视频 显示 技术 更 详细 的 描述 可 参见 参 
考 文 献 [5]。 

刚刚 介绍 的 光栅 扫描 和 显示 机 制 只 应 用 于 视频 摄像 机 和 显示 器 。 对 于 运动 图 像 摄像 机 ， 
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摄像 机 在 任何 帧 瞬间 摄 收 的 彩色 图 案 全 部 记 东 作 胶 片上 .显示 时 ,用 模拟 光学 投影 系统 回放 
相继 记录 的 题 。 
1.2.4 复合 视频 与 分 量 视频 

理想 情况 下 , 盛 沦 是 三 色 激 励 卜 示 太 是 况 度 色 度 表示 ,彩色 视频 都 屿 该 由 二 个 函数 或 信忠 
规定 ,等 个 描述 .个 彩色 分 量 。 这 种 格式 的 视频 称 之 为 分 量 视 频 。 主 归 是 中 下 历史 的 原因 ,也 
人 存在 各 种 复合 视频 格式 ,其 中 的 三 个 彩色 信和 总 被 复 用 成 个 单独 的 信 小 。 当 彩 苍 电 视 系统 首 
次 开发 出 来 时 发 明了 这 种 复合 格式 ,当时 要 求 彩 包 电 视 依 号 的 传输 方式 能 使 思 白 电视 机 从 中 
抽 皮 亮度 分 是 。 构 造 揽 合 信 号 依赖 于 这 样 “个 性 质 , 即 色 嵌 信号 具有 比 党 度 分 量 小 得 多 的 带 
M. 通过 将 每 个 色 度 分量 调制 到 一 个 位 于 亮度 分 关 高 端的 频率 上 ,并 把 已 调 色 度 分 基因 刘 原 
始 亮度 信号 ,就 产生 了 一 个 包含 充 度 和 色 度 信息 的 复合 信和 号。 为 了 在 彩色 览 视 嚣 上 上品 示 复 合 
视频 信号, 用 滤波 器 把 已 调 色 度 信 好 从 亮度 信号 中 分 离 出 来 ， 然 后 把 产生 的 亮度 和 色 度 们 号 
转换 成 红色 绿色 和 蓝 色 分 甚 。 对 于 灰 度 级 鉴 示 器 ,只 提 到 亮度 信号 并 直 拉 显示. 

现在 所 有 模拟 电视 系统 部 以 复合 格式 传输 彩色 电 视 信 号 。 复 合格 式 也 用 于 将 视频 存储 在 
茶 种 模拟 磁带 上 (例如 VHS)。 除 了 与 火 度 级 信号 兼容 以 外 ,复合 格式 消除 了 处 理 彩色 信号 时 
使 不 同 的 彩色 分 量 同 步 的 需要 .复合 信 叶 的 党 宽 比 二 个 分 基 信 生 带 宽 的 总 和 小 ,内 此 能 被 更 
有 效 地 传输 或 企 储 。 然 而 这 些 优点 是 以 降低 网 像 质量 为 代价 的 :经 常 市 于 色 度 利 亮度 分 芝 的 
串扰 调 形 成 可 觉察 的 人 工 痕迹 。 

作为 数码 率 与 图 像 质量 之 间 的 一 个 折 中 ,发 明了 S-video, 它 由 两 个 分 量 组 成 :亮度 分 量 和 
由 两 个 原始 色 度 信 呈 复合 成 的 一 个 单独 的 色 度 分 基 。 许多 高 级 消费 类 视频 摄像 机 和 显示 设备 
部 能 以 S-video 格式 记录 或 显示 视频 。 分量 格 式 只 用 于 专业 的 视频 设备 。 


1.2.5 MRE 


我 们 说 过 由 摄像 机 摄取 的 视频 帧 反映 了 成 像 景物 的 彩色 值 。 事 实 上 ,多数 摄像 机 输出 的 
筷 所 并 不 是 与 实际 的 彩色 值 成 线性 关系 ,而 是 一 种 非 线性 的 形式 T; 
v = Br’ (1.2.3) 
这 里 B, 表示 实际 的 光 充 度 o 是 摄像 机 的 输出 电压 。y, BUTE 1.008 F BAK CCD BE 
OL) Al 1.7( 对 于 光 导 管 摄像 机 )56j。 类 似 地 ,大 多 数 显示 设备 的 答 人 电压 值 与 显示 的 彩色 
强度 之 问 也 有 这 种 非 线性 的 关系 , 即 : 
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By = og” (1.2.4) 

对 于 CRT WKAR SERIA y, 是 2.2~2.5[6]。 为 了 呈现 真实 的 彩色 ,我 们 必须 在 摄像 机 输出 

端 如 入 一 个 由 反 的 短 函 数 。 类 似 地 ,在 发 送 要 癌 示 的 真实 图 像 值 之 前 ,我 们 必须 对 显示 设备 的 
“ 何 马 效应 "进行 预 补偿 。 这 些 过 程 被 称 为 伽 马 校正 。 

理想 情况 下 的 电视 广播 ,在 电视 广播 的 发 送 端 , 被 电视 摄像 机 报 取 的 RCB 值 应 该 首先 基 

于 摄像 机 的 伽 马 值 进行 校正 ,然后 转换 到 用 于 传输 的 彩色 坐标 (对 于 NTSC 是 YIQ, 对 于 PAL 利 

SECAM 是 YUV),。 在 接收 端 , 收 到 的 YiQ 或 YUV 值 应 该 首先 被 转换 成 ROB 值 ,然后 用 监视 器 





in 更 精 确 的 关系 是 B =al + Boii ek FT By BRRL YAR ESM IH MLTR SEM ES 
EE AUR THCY , DU PH Hh AY ZS RAE WO. 
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的 伽 马 值 补偿 。 然 而 实际 上 ,为 了 在 数 以 百 万 计 的 接收 机 中 减少 这 种 处 理 过 程 , 广 播 的 视频 信 
号 在 RGB 域 进 行 预 仰 马 校正 。 令 w 表示 摄像 机 摄取 的 RGB 信号 , 则 用 于 显示 的 刀 经 过 伽 马 
校正 的 信号 由 下 式 得 到 : 








和 (1.2.5) 
在 多 数 电 视 系 统 中 ,采用 比率 y./y, =2.2。 这 是 基于 假设 所 用 的 CCD 摄像 机 的 y, = 1, 而 ORT 
显示 器 的 rs =2.2[6]。 这 些 已 经 过 俩 马 校正 的 值 在 传输 时 要 转换 成 YIQ 或 YUV 值 。 接 收 机 
在 显示 时 只 简单 地 用 彩色 坐标 转换 来 获得 RGB 值 。 值 得 注意 的 是 ,这 个 过 程 在 转换 到 YIQ/ 
YUV 域 之 前 对 显示 器 加 了 伽 马 校正 ,而 这 并 不 是 严格 的 校正 。 但 是 这 种 失真 并 不 显著 ,普通 
观众 是 觉察 不 到 的 [6] 。 


1.3 ”模拟 视频 光栅 


止 如 我 们 已 经 说 明 的 ,现在 的 模拟 电视 系统 使 用 光 棚 扫 措 进行 视频 摄取 和 显示 。 由 于 这 
是 最 道 用 的 模拟 视频 格式 ,本 节 我 们 较 详细 地 描述 这 种 光栅 扫描 宙 制 ,包括 逐 行 和 隔行 扫描 。 
我 们 也 会 举例 说 明 在 不 同 的 模拟 电视 系统 中 所 用 到 的 视频 格式 。 


1.3.1 逐 行 与 隔行 扫描 


逐 行 扫描 “在 光 李 扫描 中 ,摄像 机 道 过 时 间 和 垂直 方向 上 的 采样 摄取 一 个 视频 序列 。 产 
生 的 信号 以 一 个 连续 的 一 维 (1-D) 波 形 存储 。 如 图 1.3(a ) 所 示 , 模 拟 视频 摄像 机 的 电子 束 或 
光束 连续 地 扫描 图 像 区 域 ,从 顶部 到 底部 然后 再 回 到 顶部 。 得 到 的 信号 是 由 ~- 系列 以 常规 的 
ED A, 分 开 的 帧 组 成 的 ,并 且 每 一 帧 是 由 一 系列 相继 的 以 常规 的 垂直 间隔 分 开 的 水 平 扫 
描 行 组 成 的 。 每 个 扫描 行 实际 上 是 稍微 倾斜 的 。 另 外 , 底 行 比 同一 帧 的 顶 行 大 约 晚 一 帧 的 时 
间 间 隔 。 然 而 ,为 了 分 析 的 目的 ,我 们 通常 假设 一 帧 中 所 有 的 行 是 同时 被 采样 的 ,并 且 每 行 是 
完全 水 平 的 。 沿 着 相继 帧 的 邻接 的 扫描 行 摄取 的 亮度 值 形 一 个 一 维 模拟 波形 , 称 为 光栅 扫描 。 
对 于 彩色 摄像 机 ,三 个 一 维 光栅 转换 成 一 个 复合 信号 , 它 是 一 个 彩色 光栅 。 


MAT el Mati et 
场 2 







































































图 !.3 逐 行 (a) 和 隔行 (b) 光 栅 扫 撒 格 式 


隔行 扫描 ”上面 描 述 的 光栅 扫 措 格式 更 确切 地 称 为 逐 行 扫描 (也 被 称 为 连续 或 非 除 行 打 
描 ), 在 逐 行 打 描 中 ,水 平行 被 相继 扫描 。 在 隔行 扫描 中 ,每 帧 分 成 两 场 ,每 场 包含 帧 中 半数 
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的 盾 措 行 。 每 鸯 场 之 间 的 时 间 间 障 , 即 场 问 障 ,是 帧 间隔 的 六 ,而 在 一 场 中 的 行 间隔 是 一 帧 


中 所 期 望 的 行 间隔 的 二 倍 。 两 个 相继 场 的 扫描 行 平移 了 每 场 的 半 个 行 
示 。 根据 用 于 MPEC 标准 的 术语 ,我 们 把 一 帧 
把 包含 第 二 行 和 后 向 各 个 隔行 的 场 称 为 底 场 ,在 菜 些 系 统 中 ,项 
中 , 底 场 先 采 样 。 重 要 的 是 要 记 住 , 一 帧 中 两 个 相 邻 的 行 在 时 间 上 上 是 以 场 
在 包含 具 有 垂直 边界 的 快速 运动 物体 的 随行 视频 图 像 中 产生 难看 的 之 字 玫 








PF 包含 第 一 行 和 后 面 











间距 ,如 图 1.3(b) 所 
各 个 隔行 的 场 称 为 顶 场 ,而 
场 先 采 样 ,而 在 另 一 些 系 统 
间隔 分 开 的 - 这 个 事 
EA IE. 








采用 隔行 扫描 的 动机 是 在 给 定时 间 内 给 定 所 能 记录 的 总 行 数 的 条 件 下 FER Se Pe 


提高 时 
网 


才 介 绍 


间 分 辨 率 。 在 采样 效率 方面 对 隔行 和 逐 行 扫描 更 全 面 的 比较 将 在 
的 隔行 二 | 接应 该 点 准确 地 称 为 2: 1 隔行 通常 ,我 站 





3.3.2 节 给 出 。 
可 以 把 一 帧 分 成 天 六 2 场 ， 


每 场 的 时 间 间 隔 是 A,AK。 这 被 称 为 下 :1 隔行 ,K 称 为 隔行 阶 数 。 在 数字 视频 中 ,每 行 都 是 用 


离散 采 





样 点 表示 的 ,同一 行 的 采样 点 订 能 会 出 现在 不 网 的 场 中 . 例 








如 ,一 是 中 的 采样 点 可 能 会 


以 模 量 格 图 案 分 成 两 场 。 隔 行 阶 数 最 广义 的 定义 是 一 帧 中 的 采样 点 数 与 一 场 中 的 采样 点 数 的 


比率 . 
1.3.2 


光 机 是 用 映 个 基本 参数 描述 的 : 帧 率 ( 
高 ) 用 SL, 表示。 这 两 个 参数 定义 了 光栅 在 时 
行 率 ( 行 / 秒 )， 
Wi, BAR A 
一 行 所 用 的 时 间 


能 导出 


RA = Ufa BOC A, 
T=Ufi=A/f,, ERB 
行 开 始 处 的 时 间 , 称 为 水 平 回 扫 叶 间或 只 称 为 水 平 匠 
T.=T%-T,. 
时 间 PRAE 











A -个 竺 要 的 参数 ,图 














eh 
Em 


fi) 








间或 只 称 为 于 











fal 


或 行 
o HE, 

















AER fps 或 H) H ,表示 , 行 数 ( 行 / 帧 或 行 / 像 
澡 和 简直 方向 上 的 采样 率 。 从 这 些 参数 中 ,我 们 
天 = 天 ,六 表示 。 我 们 也 能 导出 时 间 采 样 间 
距 A, = 像 高 /f,, ,以 及 行 时 间 间 隔 
时 间 间 隔 7, 包 
FLAT, 表示 . 
间隔 A, 包括 传感器 从 一 帧 中 底 行 的 本 尾 移 到 下 - 帧 顶 行 的 不 始 处 的 
E 直 回 扫 ,用 7 表示 。 一 - 帧 时 间 内 实际 扫描 的 行 数 称 为 有 
效 行 , 即 ,= (A - TN = 了 /~ T/T BE, T, EH T, 的 整数 


括 传感器 从 行 尾 移 到 下 一 
一 行 的 实际 扫描 时 间 是 


pës 
[šj 


隔行 光 概 信 号 的 典型 波形 如 网 1.4(a) 所 示 。 注 意 到 信和 号 在 水 平和 垂直 回 扫 期 间 的 部 分 


保持 在 相应 于 颖 色 电 平 之 上 的 一 个 恒定 的 电 半 上 。 这 些 部 分 称 为 同步 





到 这 些 同步 信号 后 开始 加 扫 过 程 。 
图 1.4(b) 是 一 个 典型 光 髓 信号 的 频谱 示意 图 。 可 以 看 到 频谱 含有 位 于 行 率 乒 及 其 谐 波 


上 的 峰 。 这 起 
波 波 沁 的 宽度 是 由 帧 的 最 大 

帧 率 是 决定 视频 光栅 质量 的 最 可 
隔行 持 描 ,有效 的 时 间 删 新 速率 是 50 ~ 60 Hz。 而 运动 
,72 Hz 已 经 成 为 事实 上 的 标准 。 JF 
键 因素 。 在 模拟 电视 中 ,采用 的 行 数 大 约 为 500 ~ 600, 而 计算 机 好 示 器 则 采 


面 ,在 计算 机 出 


o 


加 


e 





因为 相 全 
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的 扫描 行 很 相似 ,使 得 信号 是 接近 于 以 T, 为 周期 的 周期 信号 。 每 个 谐 




















EHH 


AEM. IE 
要 的 参数 之 --。 例 











图 


l 宽 是 由 最 大 水 平 空 
如 ,电视 业 采 用 帧 率 











HERH 














间 频 率 决 定 的 。 
H 25 ~ 30 Hz 的 
HOMIE 24 HO, B—y 





撕 采 用 的 行 数 也 是 影响 视频 质量 的 关 














更 尚 的 行 数 ( 例 





较 传 胃 的 定义 是 把 包含 所 有 个 数 行 的 场 称 为 偶 场 , 而 把 包含 所 有 坷 数 行 的 场 称 为 奇 场 这 种 定义 取决 于 第 - 行 的 


怀 呈 是 0 还 是 1, 因 水 是 模棱两可 的 。 


WR RUTH RK UT SR E BE OR A Kg Oe | 


o 为 减少 闪烁 的 可 视 性 ,用 一 个 旋转 叶片 产生 72 fpo 的 纪 觉 。 





PIE RANGA AERA n 





如 SVGA 显示 器 有 1 024 行 )。 帧 率 和 行 数 的 确定 基于 不 同 观 浏 环境 下 视觉 的 时 间 和 空间 立 
值 ,如 2.4 节 所 述 。 在 计算 机 应 用 中 需要 较 高 的 帧 率 和 行 数 ,以 适应 较 短 的 视 距 和 显示 资料 中 
较 高 频率 的 内 容 ( 线 图 形 和 文本 )。 


从 第 1 场 到 从 第 2 场 到 
eee 第 2 场 的 垂直 回 扫 MANR AH 


i X / _ 
W- WN 



































Han 





tb) 
图 1.4 典型 的 隔行 光栅 扫描 :(a) 滤 形 ,(b) 频 谱 


视频 帧 的 宽 对 高 度 的 比率 称 为 图 像 幅 型 比 (IAR)。 例 如 ,4:3 的 AR 用 于 标准 清晰 度 TV 
(SDTV) 和 计算 机 显示 ,而 更 高 的 AR 用 于 宽 银 幕 电影 ( 高 达 2.2) 和 HDTV(IAR = 16:9) ,以 产生 
更 具 戏 剧 性 的 视觉 感受 。 


1.4 模拟 彩色 电视 系统 


在 这 一 他, 我 们 简要 地 介绍 模拟 电视 系统 , 它 为 我 们 已 经 讨论 过 的 许多 概念 提供 了 很 好 的 
例子 。 设 计 彩色 电视 系统 的 一 个 主要 的 限制 是 必须 与 先前 的 单 色 电视 系统 兼容 。 首 先 ,彩色 
电视 信号 的 全 带宽 必须 符合 分 配给 单 色 电视 信号 的 带宽 (在 美国 每 个 频道 的 带宽 是 6 MHz) o 
其 次 ,所 有 的 彩色 信号 必须 复 用 成 一 个 单一 的 复合 信号 ,以便 单 色 电 视 接收 机 能 从 中 提取 亮度 
信和 号。 满 症 以 上 限制 的 彩色 电视 系统 的 成 功 设计 是 20 世纪 一 项 伟大 的 技术 发 明 。 图 1.5 显 
示 出 包括 彩色 电视 信号 产生 、 传 输 和 接收 在 内 的 主 和 要 处 理 步骤 。 下 面 我 们 简要 地 考察 一 下 这 
世界 上 有 三 个 不 同 的 电视 系统 :NTSC 系统 用 于 北美 和 包括 日 本 在 内 的 部 分 亚洲 国家 和 地 
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区 ;PAL 系统 用 于 大 多 数 西 欧 国家 和 包括 中 国 以 及 








ph 东 的 亚洲 国家 ; SECAM 系统 用 于 前 苏联 、 
分 状 率 .彩色 举 标 和 复 几 机 制 方 面 对 这 些 














东欧 法国 以 及 一 些 中 东 国 家 。 我 们 将 在 时 间 和 空间 
系统 进行 比较 。 这 里 给 出 的 资料 主要 米 白 参考 文献 18,9}。 关 于 彩色 电视 系统 更 全 面 的 论述 
参见 参考 文献 [4,15]。 
— RGB mm 
Ea 
P — $ 
YCIC2 | 
> | 解 复 用 MHo nN 
RGB hes 
-| 


























图 1.5 模拟 彩色 电视 系统 :视频 产生 传输 和 接收 


1.4.1 空间 和 时 间 分 辨 率 
三 种 彩色 


电视 系统 都 采用 1.3 节 描述 的 2:1 隔行 扫描 机 制 来 摄取 和 显示 视频 图 像 。NTSC 


RARR 59.94 Hz, 行 数 是 525 行 / 帧 。PAL 和 SECAM 系统 者 采用 50 Hez 的 场 率 , 行 数 是 











625 行 / 帧 。 选 用 这 些 场 率 并 不 干 
因为 它们 与 人 类 视觉 系统 的 临界 





扰 这 些 国 家 的 标准 电力 系统 ， 
闪烁 频率 相 | 


表 上 .1 概括 了 NTCS, PAL 和 SECAM 视频 信号 的 参数 。 对 于 NTSC 


525) = 人 3 ,5ns。 但 是 水 平 回 扫 时 | 
在 相 邻 场 间 策 直 癌 扫 所 用 的 时 间 
数 是 525 - 所 =483/ 帧 。 实 际 的 








间 用 


EH 


T T, = 10 ps, 因 此 实际 扫描 
T, = 1 333 ys, 等 于 每 场 21 个 
加 扫 只 用 了 9 个 水 于 


是 
































描 行 ) 是 





于 广播 者 在 电视 信 生 ] 





传输 附加 数据 (例如 字 妊 .电视 


表 1.1 模拟 彩色 电视 系统 的 参数 





实证 明 它 们 是 很 好 的 选择 ， 


匹配 ( 旭 2.4 节 所 述 )。 所 有 系统 的 AR 都 是 4:3。 


系统 , 行 间隔 是 T, = 1/30 x 
一 行 的 时 间 是 T, = 53.5 ps. 
条 措 行 的 时 间 。 因 此 ,有 效 行 


大 描 行 的 时 间 。 剩 下 的 时 间 (12 个 扫 





图 文 等 )Q。 








参数 NTSC PAL SECAM 

场 率 59.94 30 EJ ~ 
行 数 帧 528 625 625 

行 率 ( 行 / 秒 ) 15 750 15 625 15 625 
PRIER 4:3 4:3 4:3 

彩色 坐标 YIQ YUV YDbDr 

亮度 带宽 (MHz) 4.2 5.0,5.5 6.0 

色 度 带宽 (Miiz) 1,5(1),0.5(Q) 1.3(E, V) 1,0(U, Y) 

E EUREM) 3.58 4.43 4.25(Db) ,4.41(Dr) 
彩色 调制 QAM QAM FM 

音频 副 载波 (MHz) 4.5 5.5,6.0 65 

复合 信号 带宽 (MHz) 6.0 8.0.8.5 8.0 





T 摘自 不 同 参考 资料 的 有 效 行 数 在 490 到 495 之 间 变化 


。 这 里 的 教 字 是 出 摘自 文献 [43 的 亚 直 消 路 问 隔 计算 得 到 的 。 
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1.4.2 彩色 坐标 


用 于 一 个 电视 系统 的 彩色 坐标 是 不 同 的 。 为 了 视频 摄取 和 显示 ,所 有 三 个 系统 都 采用 
RGB 基色 ,但 是 对 各 基色 光谱 的 定义 稍微 有 所 不 同 。 对 于 视频 信号 的 传输 ,为 了 减少 所 需 的 
带宽 并 与 单 色 电 视 系 统 兼 容 ,采用 了 亮度 / 色 度 坐标 系 。 下 面 ,我 们 将 描述 用 于 这 些 系 统 的 彩 
BERK 

在 NTSC, PAL 和 SECAM 系统 中 所 用 的 彩色 坐标 都 是 从 用 于 PAL 的 YUV 坐标 导出 的 ,而 
YUV 来 源 于 XYZ 坐标 。 根 据 RGB 基色 与 YUV 基色 之 间 的 关系 ,我 们 能 由 RCH 的 值 确定 亮度 
分 量 Y 的 值 。 两 个 色 度 值 U 和 V 分 别 止 比 于 色差 8 - Y MR- 了 ,被 调整 到 所 希望 的 范围 
特别 地 ,YUV 坐标 与 PAL RGB 基色 值 的 关系 是 : 









































Y 0.299 0.587 -0.114]FRR 
[| -ae - 0.289 os 6] (1.4.1) 
y: 0.615 -0.515 ~0.100/L8 
和 
R 1.000 0.000 1.14077 ¥ 
paR - 0.395 -osn | (1.4.2) 
È 1.000 2.032 0.001 JL v 





RER, C BEALS BEE Je A, AER, C, B) = (1,1,1), 对 应 于 在 PALSE- 
CAM 系统 中 定义 的 基准 白色 -。 
NISC 系统 采用 YIQ 坐标 ,这 里 1 和 Q 分 量 是 U 和 分量 旋 转 33* 后 的 结果 。 这 样 的 旋转 
使 I 对 应 橙色 到 青色 范围 的 彩色 ,8 对 应 绿色 到 紫色 的 范围 。 因 为 人 眼 对 绿色 到 紫色 范围 内 
的 变化 与 梭 色 到 青色 范围 内 的 变化 相 比 不 敏感 ,因此 Q 分 量 可 以 比 工分 草 采 用 更 小 的 带宽 传 
























































输 59]( 这 一 点 将 在 1.4.3 节 中 详细 阐述 )。YIQ 值 与 NTSC RGB 系统 的 关系 是 ; 
Fi 「0.299 0.587 0.11497 R 
l =| 0.59% -0.275 a È (1,4,3) 
@ -0.212 -0.523  0.3114LÈ 

和 
Ry 「1.000 0.956 0.6200 Y 
|e- 1.000 -0.272 -0.647|| 7 (1.4.4) 
BJ “1.000 -1.108 1.701. Q 











对 于 YIQ 坐标 ,tan (ONEM F E V 天 + OY RE. E NTSC 复 台 视频 
中 民 和 @ 分 量 被 黎 用 成 -- 个 信号 ,使 得 被 调制 信 叶 的 相位 是 tan-'( 0/7) ,而 它 的 幅度 等 于 
VF + GAY。 由 于 传输 误差 对 幅度 的 影响 比 对 相位 的 影响 大 ,因此 在 广播 电视 信号 中 色 度 信 
和 意 比 饱 和 度 信息 能 更 好 地 保持 。 这 正 是 所 希 户 的 ,内 为 人 服 对 彩色 的 色调 更 敏感 。T 信号 与 
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彩色 调制 频率 同步 (在 相位 上 ) ,而 Q 信号 与 测 制 频率 正 交 , 即 图 周 的 四 分 之 一 或 90 度 的 相位 
偏 移 ,“1" 和 “Q” 的 名 称 由 此 而 来 (彩色 复 用 方案 将 在 1.4.4 节 中 说 明 )。 
值得 注意 的 是 , 鸯 为 用 于 NTSC 系统 的 RGB 基色 系 和 基准 白色 与 用 于 PAL/SECAM 系统 的 
不 同 ,在 这 两 个 系统 中 同样 的 RGB 值 对 应 的 彩色 是 有 些 不 同 的 。 
SECAM 系统 采用 YPbDr 坐标 ,这 里 Db 和 Dr 的 值 与 U 和 的 值 之 间 的 关系 是 : 
D, = 3.059U, D, = - 2.169V (1.4.5) 




















1.4.3 信号 带宽 


视频 光栅 的 带宽 可 以 由 它 的 行 率 估计 。 首 先 , 当 黑 色 和 白色 行 在 . 帧 光栅 中 交 蔡 出 现时 ， 
产生 最 大 的 垂直 频率 , 它 等 于 fe ARARE) AE 所 ,y 表 示 有 效 行 数 。--- 个 系统 能 够 适当 
表现 出 来 的 最 大 频率 通常 低 于 理论 极限 -这 个 衰减 因子 称 为 凯 尔 (Kel) 因子 , 记 做 K, 它 是 由 
摄像 机 和 显示 设备 的 光圈 量 数 决定 的 。 典 型 电视 摄像 机 的 凯 尔 因子 是 K = 0.7。 能 够 容纳 的 
最 大 重 直 频率 与 KA 因子 的 关系 是 : 
Fone = Kf... ARRA / 像 高 ) (1.4.6) 
如 果 我 们 假设 对 于 局 习 的 空间 距离 ,水 平 最 大 频率 与 牌 直 最 大 频率 相等 , 则 Sn = 上。 TAR 
(周期 / 像 宽 )。 内 为 每 一 行 都 是 以 了 ， 秘 扫描 的 ,所 以 一 维 光栅 信号 的 最 大 频率 为 ; 
fr = Sawa! = LAR Kf, 27 Hy (1.4.7) 
对 于 NTSC 视频 格式 ,我 们 有 Ay = 483, 7% = 53.5 jss。 因 此 亮度 分 量 的 最 大 频率 是 4.2 净 周期 
/种 或 4.2 MHz。 尽 管 色 度 信号 的 潮 在 带宽 也 许 是 高 的 ,通常 它 也 比 亮度 信号 低 得 多 。 而 日 ,已 
经 发 现 HVS 观察 色 度 的 变化 有 很 低 的 阔 值 。 一 般 两 个 色 度 信和 号 被 带 限 到 很 罕 的 带宽 、 正 像 
前 面 所 提 到 的 ,人 眼 对 由 工分 重 所 表示 的 橙色 到 青色 彩色 范围 内 的 空间 变化 , 比 由 0 分量 所 表 
未 的 绿色 到 紫色 范围 内 的 空间 变化 更 敏感 。 因 此 ,1 分 量 被 带 限 到 大 约 1.5 MRz,Q 分 量 被 带 
限 到 大 约 0.5 MHz?。 表 1.1 列 出 了 不 同 电视 系统 的 信号 带宽 。 


1.4.4 亮度 . 色 度 和 音频 的 复 用 


为 了 使 彩色 电视 信号 与 单 色 电视 系统 兼容 ,所 有 二 个 模拟 电视 系统 都 采 用 复合 视频 格式 ， 
其 中 三 个 彩色 分 量 以 及 音频 分 量 复 用 为 一 个 信号 。 这 里 ,我 们 简要 地 介绍 NTSC 所 采用 的 机 
制 。 首 先 ,两 个 色 度 分 量 NOM Q(0 用 正 交 幅度 调制 (OAM) 组 合成 一 个 信号 C(4)。 彩 色 的 
副 载 频 选择 为 半 行 率 的 奇数 倍 ,f= 455 fi/2 = 3.58 MHz。 这 样 选择 是 为 了 满足 如 下 准则 : (1) 
在 亮度 分 量 基 有 很 低能 量 的 地 方 它 应 该 足够 高 ; (2) ERRA ATR A WE SP 
行 率 谐 波 的 中 点 ;(3) 它 应 该 离 首 频 副 载波 足够 远 ,音频 副 载 波 位 于 4.5 MHz(286f;) ,与 单 色 电 
视 信 号 相同 。 图 1.6(a) 示 出 了 亮度 和 色 度 信号 的 谐 波 峰值 是 如 何 彼此 交错 的 。 最 后 ， 音频 信 
FHA = 4.5 MHz 的 音频 副 载 频 进行 频率 调制 (FM) .并 把 它 加 到 复 合 信号 中 ,形成 最 后 的 复合 
信号 。 央 为 [分 量 有 1.5 MHz 的 带宽 ,所 以 调制 后 色 度 信号 的 最 大 频率 达到 5.08 MHz。 为 了 
防止 干扰 音频 信号 ,1 信号 上边 带 被 带 限 到 0.5 MHz。 值 得 注意 的 是 ,1 信和 号 的 下 边 带 将 进入 了 
信号 的 高 端 。 由 于 这 个 原因 ,有 时 T 信 号 的 两 个 边 带 都 被 带 限 到 0.5 MHz。 如 前 所 述 ,Q 分 量 的 









































O 实际 数值 取决 于 带宽 的 定义 ,分量 从 1.3 到 1.6 MHz 变化 ,0 分 量 从 0.5 到 0.6 MHz 变化 。 这 里 的 数值 引 自 [15]。 
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两 个 边 带 都 被 带 限 到 0.5 MHz。 最 后 ,具有 大 约 4.75 MHz 带宽 的 整个 复合 信号 用 残留 边 带 调制 
(VSB) 方 式 调制 到 图 像 载 频 /, 上 ,使 下 边 带 只 扩展 到 低 于 ;1.25 MHz, 整 个 信号 占用 6 MHz 带宽 。 
这 个 过 程 与 单 色 电 视 系统 是 一 样 的 。 图 像 载波 /, 是 由 广播 频道 决定 的 。 图 1.6(b) 示 出 了 NISC 
复合 信号 的 频谱 组 成 。 表 1.1 概括 了 三 种 彩色 电视 系统 的 信号 带宽 和 调制 方式 。 
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图 1.6 在 NTSC 系统 中 亮度 、 色 度 和 音频 信号 的 复 用 :(a) 亮 度 与 
色 度 洪波 之 则 的 交错 ;(b)NTSC 复 合 信号 的 总 频谱 组 成 


在 电视 接收 机 中 ,复合 信和 号 首先 要 解 调 到 基带 ,然后 音频 和 三 个 视频 信号 分 量 要 解 复 用 。 
为 了 分 离 视频 和 音频 信号 ,可 以 使 用 低 通 滤波 器 。 这 个 过 程 在 单 色 和 彩色 电视 中 是 一 样 的 。 
为 了 进一步 从 亮度 信号 中 分 离 出 色 度 信号 ,理想 情况 下 ,应 该 使 用 梳 状 滤波 器 ,以 便利 用 这 两 
个 信号 中 谐 波 频率 交错 的 优点 、 大 多 数 高 级 电视 机 采用 在 色 度 分 量 相应 的 谐 波 上 为 零 频 的 数 
字 杭 状 滤波 器 来 实现 这 种 波 波 。 然 而 ,低级 电视 机 采用 简单 的 RC 电路 实现 截止 频率 为 3 MHz 
的 低 通 滤波 ,这 会 使 在 提取 出 的 亮度 信号 中 残留 不 希望 的 分量 , 反 过 来 也 一 样 。 这 将 导致 彩 
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色 申 扰 和 亮度 中 扰 的 人 痕迹 。 彩 色 捉 扰 是 指 由 于 高 频 觉 度 信号 接近 彩色 副 载 频 而 产生 的 假 
彩色 ， 亮 度 串 扰 是 指 由 已 调 色 度 信息 导致 的 错误 的 高 频 边缘 图 案 (对 于 各 种 滤波 器 效应 的 一 
个 很 好 的 图 示 参 见 文献 [1])。 提 取出 色 度 信号 后 ,用 相应 的 彩色 解 调 方 式 分 离 出 两 个 色 度 分 
量 。 最 后 ,将 二 个 彩色 分 量 转换 到 ROB 坐标 用 于 显示 。 


1.4.5 模拟 视频 录像 


随 着 模拟 电视 系统 的 发 展 , 山 经 开发 了 各 种 视频 磁带 录像 (YTR) 技 术 , 雇 便于 专业 视频 生 
疗 ( 录 像 和 编辑 ), 以 及 消费 者 的 承 像 (家 有 几 视 频 ) 和 放 像 (YCR)。 表 1.2 概括 了 通用 视频 磁带 
格式 。 














表 1.2 模拟 视频 磁带 格式 























视频 格式 磁带 格式 水 平行 | ”亮度 带宽 应 用 
复合 g YHS.8 mm 240 3.0 MH 消费 
Urewtie SP 330 4.0 Mir Rk 
S 视频 | S-VHS, His 400 5.0 Mifz PEE RETH e 
分 其 Betacam SP 480 4.5 MHs ad 
1.5 数字 视频 
1.5.1 符号 


数字 视频 可以 通过 采样 光栅 扫描 或 直接 用 数字 视频 摄像 机 获得 。 日 前 ,所 有 的 数字 氢 像 
都 使 用 OCD 传感器 。 与 模拟 摄像 和 机 一 样 ,数字 摄像 机 把 成 像 景物 采样 成 离 卜 的 帧 。 每 -h 
向 水 平和 冬 站 者 离散 化 的 CCD 阵列 的 输出 值 组 成 数字 视频 是 由 帧 率 /,, 行 数 六 和 得 行 的 
样 点 数 太 , 定 义 的 。 根 据 这 些 参 数 ,可 以 求 出 时 间 采 样 癌 隔 或 巅 间隔 A = 1//, EPR RE 
A, = (RTS... KERRI A, = 像 宽 /大 。。 在 本 书 中 ,我 们 用 w (m.a,) 表 示 数 字 视频 ,这 
时 整数 标号 m 和 n 足 列 标号 和 行 标号 ,是 帧 数 。 相 应 上 上 这 些 整数 标 杂 的 实际 的 空间 和 时 间 
位 置 是 :x = mA, ,y= nA, ,1= pa,。 为 了 方便 ,我 们 用 w (x,y 让 表示 通常 意义 的 视频 信号 , 它 
可 以 十 模拟 的 或 数字 的 。 只 有 有 当 特 别 指出 如 数字 视频 时 才 用 Cn on Bo 

除了 前 面 的 参数 ,数字 视频 分 ,个 重要 的 参数 是 用 于 表示 一 个 像素 值 (只 是 光 庶 ,或 是 
个 彩色 值 ) 的 比特 数 ,并 把 它 记 为 NV。 传统 上 ,用 8 比特 或 256 个 级 指定 亮度 和 /或 二 个 彩色 什 
的 每 一 个 彩色 。 内 此 ,对 于 单 色 电视 N, =&, 而 对 于 彩色 电视 N, = 24。 数 宁 视频 的 码 率 出 
Re AAA， 确定 ,单位 是 比特 / 秒 (或 bps, 通 常 的 单位 是 下 比特 / 秒 (bps) 或 兆 比特 /种 
(Mbps))。 一 般 地 说 ,对 于 视频 信号 的 癌 度 和 色 度 分 基 , 时间 和 空间 采样 率 果 以 不 司 。 在 这 种 
情况 下 ,AN 应 该 反映 在 党 度 采样 分 辩 床下 用 于 每 个 像素 的 等 效 比 特 数 。 例 如 ,如 业 短 个 色 度 
分 量 的 水 平 各 下 上 采样 内 都 是 党 度 采样 率 的 OE BA a Y 采样 有 网 个 色 度 采样 。 如 果 
每 个 采样 用 8 比特 表示 ,那么 在 Y 分 辩 训 下行 个 采样 的 等 效 比 迁 数 为 ;:(4x 8 + 2x 8)/4 = 12 
比特 。 

当 在 监视 器 上 显 示 数 字 视 频 时 ,每 个 像素 被 表示 为 具有 指定 给 该 像素 的 -种 伍 定 彩色 的 
ARO RR. RIE DCE IE hi IS Ek ROW PA MLL (PAR). EE BIRR BRAY 
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IAR 以 及 图 像 尺寸 的 关系 为 ; 











PAR = JAR: f/f. (1.5.1) 
为 了 正确 显示 数字 化 视频 信号 ,必须 在 指定 . A.. 和 上 ,的 同时 指定 PAR 或 AR。 显 示 设 备 应 该 
与 为 该 信号 指定 的 (或 由 指定 的 LAR 导出 的 )PAR 一 致 。 否 则 ,物体 的 外 形 将 会 失真 。 例 如 ， 
如 果 显 示 PAR 大 于 指定 的 PAR ,那么 一 个 人 的 图 像 会 变 得 较 胖 和 较 矮 。 在 计算 机 行业 中 , 通 
常 采用 的 PAR 为 1.0。 另 一 方面 ,在 电视 行业 中 ,由 于 历史 的 康 因 使 用 非 方 形 像素 ,其 原因 将 
在 1.5.2 节 进 行 解释 。 


1.5.2 ITU-R BT.601 数字 视频 


BT.601 信号 的 空间 分 辩 宁 ”致力 于 将 广播 质量 的 不 同 的 模拟 电视 视频 信号 所 使 用 的 数 
字 格 式 标准 化 ,国际 电信 联盟 -无 线 电 部 门 (11U-R) 提 出 了 BT.601 建议 [35]。 这 个 标准 指定 了 
幅 型 比 为 4:3 和 16:9 的 数字 视频 格式 ,我 们 仅 讨论 幅 型 比 为 4:3 的 格式 @。 为 了 把 光栅 扫描 
信号 转换 成 数字 视频 信号 ,只 需 采 样 一 维 波形 。 若 每 行 取 上 ,采样 的 样 点 总 数 , 则 等 效 采 样 率 
H S= fadado Hf APER. TE BT.601 标准 中 ,选择 的 采样 频率 要 满足 两 个 约束 条 件 ;(1》 
水 平 采 样 分 辨 率 要 尽 可 能 与 重 真 采样 分 辨 率 匹配 , 即 令 A, =-A,i(2) 同样 的 采样 率 应 该 用 于 
NTSC 和 PAL/SECAM 系统 ,而 且 应 该 是 这 些 系统 中 各 个 行 率 的 倍数 。 第 一 个 准则 要 求 人. ~ 
ARS ROBIE S, ~ TAR S E /这 导致 对 于 NISC 和 PAL/SECAM 系统 上 分 别 为 11 MHz 和 
13 MHz. 从 而 一 个 既 接 近 这 两 个 数 又 满足 第 二 个 准则 的 数 便 可 以 选 出 ,这 个 数 是 
£ = 858/,(NTSC) = 864/,(PAL/SECAM) = 13.5 MHz (1.5.2) 
对 于 NTSC ,每 行 的 像素 数 为 /.。 = 858, 对 于 PAL/SECAM Wf, = 864。 这 两 种 格式 分 别称 为 
525/60 和 625/50 信和 号 ,如 图 1.7 所 示 。 在 525 行 和 625 行 系统 中 有 效 行 数 分 别 Æ fs. y= 480 和 
了 ,y= 576, 但 是 每 行 的 有 效 像素 数 是 相同 的 , 均 为 ,x = 720 像素 。 AF AREY ABA 
扫 中 获得 的 样 点 ,它们 落 人 无 效 区 。 
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525/60: 60 field/s 625/50: 50 field/s 





图 1.7 BT.601 视频 格式 
对 于 BT. 601 信号 ,像素 宽 对 高 的 比率 并 不 是 1, 即 像素 的 物理 区 域 并 不 是 一 个 方块 。 特 
别 地 ,对 于 525/60 信号 ,PAR = A, /A, = TAR: f/f Sx = 8/9, X} 625/50 信号 则 为 16115。 为 了 
显示 BT.601 信号 ,显示 设备 应 该 有 适当 的 PAR, 否 则 图 像 将 失真 。 例 如 , 当 在 PAR 为 1 的 计算 














D MUR 以 腹 称 为 国际 无 线 电容 询 委 员 会 (CCIR) ,并 且 BT.601 格式 的 4:3 幅 型 比 的 版 本 被 称 为 CCIR601 格式 。 
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机 屏幕 上 显示 时 ,525460 信 吕 将 在 水 平 旋 向 被 拉 长 ,而 625/50 fA EE A LA, ME 
情况 下 ,应 该 对 原始 信号 下 采样 ,以 使 六 ,= TARY S'o Bil Bt, 525/60 和 和 625/50 信号 应 该 分 别 
被 重 采样 为 每 行 640 和 768 个 有 效 像素 

彩色 坐标 和 色 度 的 亚 采 样 BRS SERS) BT. 0 建议 还 定义 了 一 个 数字 彩色 坐 
标 , 称 为 YCbCr。YY,Cb 和 Cr 分 量 是 模拟 Y,U 和 V 分 量 的 伸缩 利 移 位 形式 ,这 里 引 人 伸缩 和 移 
位 运算 以 便 使 产生 的 分 量 在 (0~ 255) 范 胃 内 取 值 。 关 于 这 个 彩色 坐标 设计 的 更 详 细 的 解释 ， 
WT SS HHS] ;这 里 我 们 只 给 出 了 出 数 宁 RGB ARG Ie AE DERI, 很 
设 RGB 值 的 范围 是 (0 ~ 255) , YCbCr {Ë G RGB 值 的 关系 为 : 
































y 0.257 0.504 0.098] R] TI6 
G|=]|-0.148 -0.291 0.49| Gl:| 128 (1.5.3) 
E 0.439 -0.368 -0.071JL R] L128 


相反 的 关系 为 : 
R 1.164 0.000 1.596][ ¥ — 16 
Gis} 1.164 -0.392 -0.813|| C ~ 128 (1.5.4) 
R. 1.164 2.017 9.000/L c, - 128 

EERRRAH, R= 255K, 6 =2550, B =255% ELE NISC 和 PALISECAM 系统 中 定义 的 


D4 RGB 基色 RGB 的 数字 等 效 值 。 在 YCbCr RN, y IRRE, MUR RE Elf (16 
~235)3C, 和 ,分别 吓 色差 8- 了 和 RR- 了 伸缩 后 的 形式 .通过 伸缩 各 移 位 使 它们 的 取 值 范 
围 为 (16~ 240)。C, 的 最 大 值 对 应 红色 (C= 240 或 者 R=255,6 = B=0), 而 最 小 值 对 应 青色 
CE, = 16 RA R= 0,G= B= 255), ZPUE, C, 的 最 大 和 最 小 值 分 别 对 应 蓝 色 ( C, = 240 或 者 
R= C=0, B= 255) MBC, = 16 RH R= G=255, B=0)。 

前 面 介绍 的 空间 采样 率 指 的 是 亮度 分 量 Y。 对 于 色 度 分 量 Ch 和 Cr, 通 常 只 用 这 个 采样 率 

SEBI Se = 大 /2。 这 使 得 每 行 的 像素 数 减 少 一 半 , 仁 每 屿 的 行 数 相 问 。 这 被 称 为 4:2:2 格 
性 意味 着 每 4 个 Y 样 点 对 应 两 个 Cb 样 点 和 两 个 Cr 样 点 。 为 了 上 进 一 步 降 低 所 索 的 但 率 ， 
BT.601 还 定义 了 43:1;1 格式 ,其 中 色 度 分 量 在 每 行 中 进行 4 倍 亚 采样 , 即 每 4 个 丫 样 点 对 应 - 
个 Cb 样 点 和 一 个 Cr 样 点 。 然 向 ,这 种 采样 法 导致 在 水 平和 重 上 自 方 向 的 分 辨 率 很 不 对 称 。 因 
此 叉 提出 了 另 一 种 采样 格式 , 它 对 Ch 和 Cr 分 量 在 水 平和 冬 直 方向 上 部 进行 一 半 的 亚 采 样 。 
在 这 种 格式 中 ,还 是 每 4 个 Y 样 点 对 应 一 个 Cb 样 点 和 一 个 Cr 样 点 。 但 是 为 了 避免 与 前 面 定 
义 的 4:1:1 格 起 混淆 ,这 种 格式 称 为 4:2:0。 对 主 错 要 很 高 分 辩 率 的 应 用 场合 ,定义 了 4:4:4 
格式 , 它 以 与 亮度 分 量 完全 -一样 的 分 辨 率 采 样 色 度 分 量 。 不 不 同 格 式 的 党 度 和 色 度 样 点 的 相对 
位 置 如 图 1.8 Bra, 

在 第 4 章 引 ,我 们 将 讨论 以 不 同 的 叶 间 /空间 分 辩 率 转换 视频 信 生 的 解决 办 法 ， 不 同 的 彩 
色 亚 采样 格式 间 的 转换 是 该 章 的 一 个 练习 题 。 

BT.601 信号 的 碌 码 率 是 由 彩 公 的 亚 采样 因子 决定 的 。 对 于 最 道 用 的 4:2:2 格 式 ,每 两 个 
YARAT EER, 每 个 采样 用 8 比特 表示 。 因 此 ,对 于 每 个 了 采样 ,等 效 的 比特 率 为 



























































D 对 于 4:2:0 格式 ,Cr 和 名 样 点 也 可 以 位 于 4 个 对 应 的 了 样 点 的 中 心 ,如 图 13.14 所 示 。 
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N, = 16 比特 , 原 码 率 是 AN = 216 Mbps。 诛 码 率 对 应 的 有 效 区 是 fh) AN, = 166 Mbps。 对 
于 4:2:0 格式 ,每 4 个 Y 采 样 对 应 两 个 色 度 采 样 ,对 于 每 个 Y 采样 等 效 的 比特 率 是 N = 12 比 
特 ， 因 此 原 码 率 为 162 Mbps, 在 有 效 区 为 124 Mbps。 对 于 4:4:4 格式 ,对 于 每 个 了 采样 等 效 的 
比特 率 为 N, = 24 比特 , 原 但 率 为 324 Mbps, 而 有 效 区 为 249 Mbps, R 1.3 概括 了 不 同 的 


BT.60I 信 和 号 的 分 辩 率 和 码 率 。 
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图 1.8 BT.601 色 度 亚 采样 格式 。 注 意 在 任何 一 个 
格式 中 两 个 相 邻 的 行 属于 两 个 不 同 的 场 


R13 不 同 应 用 的 数字 视频 格式 























视频 格式 YR 彩色 采样 Ee AWE Mbps) . 
HO ARA HE HDTV, MPEG-2 视频 ,20 ~ 45 Mbps 
SMPTE 296M 1280 x 720 4:2:0 24P/30P/60P 265/332/664 
SMPTE 95M 1920x1080 4:2:0 、24pH30P60 597/7461146 
视频 制作 , MPEG-2, 15 ~ 50 Mbps 
BT.601 720 x 480/576 4:4:4 601/501 249 
BT.6O1 ___ P20 x 480/576 4:2:2 601501 i6 
SERRA ATH (DVD, SDTV), MPEG-2,4 ~ 8 Mope 

_E1.601 . 720 x 480/576 4:2:0 SOUSOL 124 E 
中 质量 视频 发 布 (VCD, WWW), MPEG-1,1.5 Mbps 
SF 352x 240/288 4:2:0 _ 30P/25T 0 
HSDN/ 因 特 网 视频 会 说 ,HB,2617H.263,128 ~ 384 kbps ~ 7 
cr ____ 352 x 288 420 _30P n 3 
有 线 / 庆 线 调制 解 调 可 视 电 话 ,日 .263,20 ~ 64 kbps 
QCIF 176x 144 4:2:0 30P 9.1 

















BT.601 格式 用 于 高 质量 的 数字 视频 场合 ,一 般 4:4:4 和 4:2:2 格式 用 于 视频 制作 和 编辑 ， 
4:2:0 格式 用 于 视频 发 行 (如 数字 视盘 (DVD) 上 的 电影 ,视频 点 播 (VOD) 等 )。MPEG-2 视频 
压缩 标准 主要 是 为 压缩 BT.601 4:2:0 信号 开发 的 ,尽管 它 也 能 处 理 较 高 或 较 低 分 辨 率 的 视频 
信号 。 原 有 效 码 率 为 124 Mbps 的 典型 4:2:0 信号 可 以 被 庄 缩 到 大 约 4 ~8 Mbps。 我 们 将 在 








O “MPEC 代表 国际 标准 化 组 织 或 180 的 运动 图 估 专 家 组 。 
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13.5 节 中 介绍 MPEC-2 视频 编码 算法 ， 
1.5.3 ”其 他 数字 视频 格式 和 应 用 


除了 BT.601 格式 ,还 定义 了 几 个 其 他 的 标准 数字 视频 格式 。 表 1.3 概括 了 这 些 视频 格式 
以 及 它们 的 土 要 应 用 ,压缩 方法 和 库 纳 后 的 比特 率 、 国 际 电信 联盟 -电信 部 门 (ITU-T) 规 定 
GIF( 遂 岂 媒 体 赂 式 ) 在 水 平和 迅 直 维 上 的 分 辨认 都 大 约 是 BT.601 4:2:0 信 生 的 一 半 , 它 是 为 
视频 会 议 应 用 调 开 发 的 ;在 水 平和 冬 直 维 二 共有 CIF 一半 分辨 率 的 OCT 川 于 可 视 电话 及 类 似 
的 应 用 场合 .它们 都 是 非 隔 行 的 。JTU-T H.261 编码 标准 的 推出 是 为 了 以 这 些 格式 将 视频 信 
号 不 缩 到 p x 64 kbps, HT p = 1,2,…,30, 以 便 在 只 允许 传输 速 识 是 64 kbps 整数 偿 的 ISDN 
{综合 业务 数字 网 ) 线 路 上 传输 。 一 般 诛 码 率 为 37.3 Mbps 的 CIF 信号 能 被 压缩 到 大 约 128 ~ 
384 kbps, 具 有 较 好 的 质量 ,而 诛 碍 率 为 9.3 Mbps 的 QCIF 信号 能 被 压缩 到 64 ~ 128 kbps。 其 后 
FAT, 263 标准 可 以 在 同样 的 比特 率 下 达到 比 H.261 更 好 的 质量 。 例 如,H. 263 能 把 一 幅 QCIF 
PERI AR LY AES 20 kbps, 而 与 64 kbps RTF AY H.261 相 比 质量 相当 或 哆 好。 这 使 可 视 电 话 
通过 28.8 kbps 的 调制 解 调 器 线路 通信 成 为 叮 能 。 

与 TW-T 的 努力 并 行 .1S0-MPEG 也 现 定 了 “系列 数字 视频 标准 。SIF( 源 媒体 格式 ) 有 效 区 
八 才 实际 上 是 BT,60] 信 寻 的 目 分 之 一 ,大 致 与 CF 相当。 这 种 格式 的 日 标定 位 于 中 等 质量 的 
视频 应 用 ,如 视 睹 游戏 和 CD 电影 之 类 。 炎 似 BT. 601, ARAE SIF 格式 : PHO ER AE 30 The, 
行 数 是 240, 5) 一 种 的 帧 率 足 25 Hz, 行 数 是 288, 它 们 都 是 352 像素 / 行 。 还 有 .个 机 应 的 SIEI 
RRA ENJA 2:1 RATA. MPEG- 等 法 能 够 把 一 个 原 码 率 为 30 Mbps AYIA A) SIF 视频 
FASEB) ALY 1.1 Mbps, 质 其 类似 十 在 YHS VOR F 看 到 的 分 辩 府 , 低 于 广播 电视 的 质量 。 
L.L Mbps 的 码 举 能 回放 存 芭 速率 为 1.5 Mbps 的 CD-ROM 上 的 数字 电影 。 在 视频 CD{ YCD) 上 
发 布 MPEC-1 电影 足 20 世纪 90 年 代 早期 数字 视频 强化 消费 者 市 场 的 标志 。 企 20 世纪 90 年 
代 中 期 开始 的 基于 MPEG-2 的 DVD, 开辟 了 沿 质 基数 字 视 频 娱 乐 的 新 时 代 。MPEC-2 技术 也 是 
下 - 代 采 用 数字 压缩 和 传输 技术 的 全 数字 电视 系统 的 莫 基 石 。 表 1.3 详细 列 出 了 所 讨论 的 视 
频 格式 ,以 及 它们 的 十 要 应 用 、 讨 缩 方法 和 压缩 后 的 比特 率 ( 第 13 章 将 给 出 压缩 标准 的 更 多 
ALR). 

BT. 601 HES AE FAP CF HU BL CTV) 的 标准 图 像 格 式 。 为 了 进一步 增强 视频 质 基 , 儿 个 
HDTV 格式 也 已经 被 运动 图 像 和 电视 工程 师 协 会 (SMPTE ) 进 行 了 标准 化 ,它们 也 列 人 表 1.3 
中 ，HDTY 的 个 显 昔 特 征 是 它 的 幅 型 比较 宽 ,为 16:9, 而 SDTV 是 4:3。 在 水 平和 和 球 直 维 上 
部 具有 两 倍 到 “ 信 的 图 像 分 辨 滨 , 而 卫 为 降低 隔行 效应 采用 了 逐 行 扫 描 。MPEG_2 PUR RATER 
HEL SHELL 一 个 高 类 《profile) 用 于 压缩 HDIY 视频 ， 典 型 情况 下 它 能 把 码 率 压 缩 AKA 
20 Mbps, INHERENTE EREE 选择 这 样 的 视频 比特 率 , 是 为 了 采用 数字 凋 制 技术 
FSET LSS BEES HY CHR REAR A BL 6 MHz 的 地 而 频道 .这 是 关 国 为 HDTV 分 配 的 
频道 带宽 。 有 交 DIV 的 更 多 信息 ,读者 可 参考 Whitaker [14j。 


1.5.4 数字 视频 录像 


为 了 以 数字 格式 存储 视频 ,已 推出 各 种 数字 视频 位 带 录 像 机 (DVTR) 格 式 ,它们 在 视频 格 
式 运用 . 纠 链 编 色 技术 以 及 存储 祖 度 等 方面 有 所 不 同 。 表 1.4 全 出 了 一 此 标准 和 专 有 的 低 带 
格式 、D1 ~ DS 是 以 原始 的 非 奈 缩 的 格式 存储 视频 ， 而 其 他 格式 贤 对 视频 进行 预 不 缩 。 只 使 用 
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了 保守 的 上 床 缩 量 ,因此 图 像 质量 的 下 降 不 会 低 于 预期 应 用 可 接受 的 程度 。 参 考 文献 [12] 中 对 
DVTR 做 了 一 个 很 好 的 综述 。 关 于 DVTR 注 记 录 和 操作 基础 物理 学 的 广泛 的 内 容 可 参阅 参考 
文献 [13]。 

除了 磁带 录像 机 ,VCD 和 DVD 是 使 用 光盘 的 两 种 视频 存储 设备 。 利 用 MPEG-1 和 MPEC-2 
技术 能 以 较 高 质量 分 别 存储 SIF 和 BT.601 视频 ,目前 , VCD 和 DVD 是 只 读 的 ,因此 它们 主要 
于 预先 记录 的 视频 的 发 布 , 而 不 是 消费 者 记录 视频 的 工具 。 

如 参考 文献 11 ] 和 [10] 所 介绍 的 基于 便 盘 的 视频 录像 系统 也 已 经 出 现 、 这 些 系统 使 消费 
者 能 把 高 达 30 小 时 的 广播 电视 节日 以 MPEG-2 压缩 格式 记录 到 硬盘 上 ,以便 以 后 能 像 普 
VCR 录像 机 一 样 用 快 进 、 慢 动作 等 功能 观看 。 它 们 还 允许 即时 和 暂停 正在 观看 的 活动 节目 ,把 
活动 的 视频 在 暂停 期 间 存储 到 磁盘 上 。 随 着 便 盘 价格 的 持续 下 降 , 硬 盘 DVIR 可 能 最 终 会 取 
代 速 度 慢 而 且 存 储 容 量 小 的 磁带 录像 系统 。 


表 1.4 数字 视频 磁带 格式 





























磁带 格式 视频 格式 HOS RAE 压缩 方法 应 用 

LR | g 

SMPTE DL BT.601 4:2:2 216 Mbps NA N/A 专业 人 员 

SMPTE D2 BT.601 114 Mbps NA NA 专业 人 员 

SMPTE D3 BT.601 114 Mbps NA NA AR HAE 

SMPTE DS BY.6Ol 4:2:2(10 hit) 270 Mbps NA MA - EWAN 

FRR 

Digital Betacam BT.601 4:2:2 166 Mbps. 80 Mbps Frame DCL 专业 大 员 

Betacam SX BT.601 4:2:2 166 Mbps 18 Mbps MPEG-2 BRE 
《 仅 1 和 了 模式 ) 

DYVCPRO50 ET.601 4:2:2 166 Mbps 50 Mhps Wa Der 专业 人 员 

DYVCPRO25{DYV) BT,601 4:1:1 124 Mbps 25 Mbps bi DCT 消费 者 





1.5.5 视频 质量 的 测量 


为 了 指导 视频 处 理 , 有 必 可 定义 一 个 能 测 基 原始 信号 与 处 理 后 信号 之 间 的 差别 的 客观 准 
则 。 这 在 视频 编码 应 用 中 是 尤其 重要 的 ,这 时 我 们 必须 测量 由 卜 缩 引起 的 失真 。 理想 情况 下 ， 
这 种 测量 应 该 与 两 个 视频 序列 之 闻 感 觉 上 的 差异 相关 联 。 然而 ,找到 这 样 一 种 方法 是 一 件 非 
常 困难 的 工作 。 尽 管 已 经 提出 了 各 种 质量 测量 ,然而 与 人 的 视觉 感觉 有 好 的 相关 性 的 方法 在 
计算 上 是 相当 复杂 的 。 目前 大 多 数 视频 处 埋 系 统 的 设计 是 使 末 个 视频 序列 ， ly 之 问 的 均 
方 误差 (MSE) 最 小 化 , 它 定义 为 : 


MSE = o? =H (my nk) -Ya(m, n,k)? (1.5.5) 


这 里 N 是 每 个 序列 中 的 总 像素 数 。 HTE EMIN, GAE EER MSE 是 分 别 计算 的 。 
代替 MSE, 以 分 由 (dB) 为 单位 的 峰值 信 噪 比 (PSNR) 更 经 党 用 于 视频 编码 中 的 质量 测量 。 
PSNR 定义 为 : 

















we 
PSNR = 10 logio =" (1.5.6) 


这 里 Y ww 是 视频 信号 的 峰 ( 最 大 ) 强 度 从 。 对 于 最 通常 的 每 彩色 8 EMV a = 255。 注意 ， 
对 于 固定 的 峰值 ,PSNR 完全 由 MSE 决定 。PSNK HE MSE 更 经 常 使 ,是 因为 人 们 总 是 倾向 于 
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将 图 像 质 量 与 菜 种 PSNR 范围 相 联系 。 作 为 一 个 主要 的 准则 ,对 于 亮 嵌 分 量 ,一 个 高 于 4 dB 
的 PSNR 一 般 意 味 着 -个 极 好 的 图 像 ( 即 与 原始 图 像 很 接近 ) ,30 ~ 40 dB 之 间 通 常 意味 着 一 个 
好 的 图 像 { 即 失真 可 觉察 , 代 可 以 接受 ) ,20 ~ 30 曲 之 间 是 要 当 辫 的 ,最 后 ,PSNR 低 于 20 dB 是 
不 可 接受 的 。 
计算 号 个 序列 间 的 PSNR SE MATES. ESE OS PAT GT EL PSNR, 然后 对 各 个 帧 所 得 
旬 的 值 取 平均 居 不 正确 的 。 正 确 的 是 ,我 们 应 该 在 相应 帧 问 计算 WMSR ,对 所 有 帧 得 到 的 MSE 
(FUROR) ARGH MSE 转换 到 PSNR。 
主 炎 为 了 减少 计算 量 ,有 时 用 来 代替 MSE 的 一 种 测 贡 中 平均 绝对 误 盖 (MAD) ,定义 为 


MAD = 万 六 > 1 Wi(m nh) -v(m k) | (1.5.7) 


例如 ,对 于 运动 估计 ,MAD 经 常用 玫 为 当前 巾 的 已 知 块 在 另 一 帧 中 寻找 到 最 佳 的 匹配 块 。 
众所周知 ,MSE 和 PSNR 与 图 像 亲 的 感觉 失真 的 相关 人 性 不 是 很 好 。 但 是 这 些 测量 方法 几 
平 无 例外 地 用 于 图 像 和 视频 编码 .运动 补偿 预测 以 及 图 像 焦 复 的 客观 失真 测量 ,这 一 方面 由 于 
它们 在 数学 上 昂 处 理 , 另 一 方面 由 于 缺乏 更 好 的 代 赫 方法。 设 订 容易 计算 的 并 且 与 感觉 失真 
相关 性 很 好 的 客观 失真 测 基 方法 仍 是 -- 个 开放 的 研究 课题 。 在 本 书 中 ,我 们 主要 用 MSE 和 
PSNR 作为 失真 测 苦 。 












































1.6 小 结 
彩色 的 产生 、 感 党 和 规定 (1.1 节 } 


® 光 的 彩色 决定 丁 频 谱 成 分 。 任 何 彩色 都 能 通过 三 茜 色 的 混合 调 产 生 。 最 通用 的 基色 系 
包括 红色 \ 绿 镁 和 监 色 。 

人 眼 是 通过 视网膜 上 调谐 于 红色 .绿色 和 蓝 色 波长 的 接收 细胞 ( 锥 状 细胞 ) 感 知 彩色 的 。 
彩色 可 用 三 个 属性 加 以 描述 :党 度 (明亮 度 ) 色调 (彩色 基调 ) 和 饱和 度 (彩色 纯度 )。 人 
眼 对 亮度 最 敏感 ,然后 是 色调 ,最 后 是 饱和 度 。 

彩色 吕 以 出 三 个 数值 规定 :或 者 是 相应 于 三 基色 的 贞 献 值 ( 妈 三 激励 值 ) ,或 者 是 一 
度 值 和 两 个 色 度 值 。 





模拟 视频 {1.3 节 } 


。 用 下 广播 电 视 .视频 摄像 机 ,视频 显示 等 的 模拟 视频 信号 以 光栅 扫描 格式 存储 。 光 栅 扫 
描 的 视觉 质量 和 带宽 是 由 它 的 帕 率 和 行 数 决 定 的 。 

日 隔行 扫描 是 用 笨 竹 乖 下 分 辩 率 换取 增强 的 时 间 分 辩 率 的 一 种 机 制 .然而 , 它 也 会 导致 
隔行 效应 。 











模拟 彩色 电视 系统 (1.4 节 } 


现在 世界 [采用 种 模拟 彩色 电视 系统 :NTSC,PAL 和 SECAM。 它 们 都 采用 2: 1 隔行 打 
描 , 但 是 在 帧 率 ,. 行 数 .彩色 坐标 以 及 亮度 和 色 度 的 复 用 方面 不 同 。 

© EAL DLE ,亮度 和 两 个 色 度 分 二 以 及 伴音 信号 痢 采 用 调制 技术 (里 率 偏 移 ) 复 
用 成 一 个 复合 信号 , 复 用 方式 的 设计 使 得 彩色 电视 系统 与 单 色 电视 系统 向 下 兼容 。 而 
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数字 视频 
® Bl. 





Lt 
1.2 


ia 





A had eH AR EA EZ FH BM 


1.575) 
601 是 由 采样 模拟 彩色 电视 信号 得 到 的 一 种 数字 视频 属 式 。 采 样 率 的 选择 使 水 平 





ASE KER, JF EL GE NTSC 和 PAL/SECAM 系统 的 码 率 相同 。 
时 色 度 分 量 可 以 用 低 于 
龟 为 了 降低 数字 视频 信和 好 的 源码 率 , 讨 缩 是 必要 的 ,并 内 此 会 降低 存储 和 传输 的 成 本 。 已 

经 为 不 同 的 视频 应 用 研制 出 了 不 同 的 视频 压缩 标准 。 





度 分 其 的 速率 采样 。BT, 601 定义 了 不 同 的 彩色 亚 采样 格式 。 





1.7 习题 


叙述 人 类 感知 彩色 的 机 制 。 

如 果 … 束 光 在 相应 于 红色 、 绿 色 和 蓝 色 的 频率 上 有 近似 相同 的 能 量 ,而 在 其 他 频率 
的 能 起 为 零 , 你 所 感受 到 的 彩色 是 什么 ”如 果 只 有 红色 和 绿色 频率 呢 ? 

如 果 将 红色 .绿色 和 蓝 色 的 染料 以 相等 的 比例 混合 ,你 所 感受 到 的 彩色 是 什么 ”只 
混合 红色 和 绿色 的 染料 呢 ? 
对 于 RGB 坐标 中 的 下 列 彩色 ,分 别 确定 它们 在 YIQ 和 YUV 坐标 中 的 值 。 

(a) (1,1,1) (hb) (0,1,0) <e) (1,1,0) (a) (0,1,1) 

对 于 数字 RGB 坐标 中 的 下 询 彩 色 ,确定 它们 在 YCbCr 坐 林 中 的 值 。 

(a) (255,255,255) (b) (0,255,0) Ce) (255,255,0) (d) (0,255,255) 
在 1.5.2 节 中 ,我 们 说 Cr 的 最 大 值 对 应 红色 ,而 最 小 值 对 应 青色 ,类 似 地 ,Cb 的 最 大 
和 最 小 值 分 别 对 应 蓝 色 和 黄色 。 用 YCbCz 到 RGR 的 坐标 变换 验证 这 些 表述 。 

在 图 1.4 中 ,我 们 给 出 了 典型 光栅 信号 的 频谱 。 为 什么 视频 信号 的 频谱 是 接近 周期 
性 的 ? 谐 波 波状 的 宽度 是 由 什么 决定 的 ? 

逐 行 与 隔行 扫描 各 有 什么 优 缺点 ? 对 于 每 帧 同样 的 行 数 , 逐 行 #i 描 光栅 的 最 大 时 间 
频率 与 把 每 帧 分 成 两 场 的 隔行 提 描 的 最 大 时 间 频 率 之 间 的 关系 是 什么 ?最 大 垂直 
闫 率 之 问 的 关系 叉 怎样 

在 1.4.3 节 中 ,我 们 根据 NISC 信号 的 扫描 参数 估计 了 它 的 带宽 。 几 同样 的 方法 估 
计 PAL 和 SECAM 信号 的 带宽 。 

仍 述 形成 一 个 复合 彩色 视频 信号 的 过 程 。 怎 么 选择 彩色 和 音频 的 副 载波 频率 ? 
采用 分 量 与 复合 格式 各 有 什么 优 缺 点 ? 

自修 项 日: 用 示波器 (a) 画 出 波形 ,并 (bb) 测量 电视 机 或 录像 机 输出 的 复合 视频 信号 
的 频谱 。 

自修 项 目 :用 A/D 转换 器 将 - -个 复合 视频 信号 数字 化 ,然后 用 MATLAB 确定 其 频 
Wo FFE UE RE . 色 度 和 音频 信 导 。 
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第 2 章 视频 信号 的 傅 里 叶 分 析 和 
人 类 视觉 系统 的 频率 响应 


传 插 叶 分 析 是 信号 分 析 的 重要 工具。 我 们 假设 读者 对 一 维和 二 维 空间 的 依 里 叶 变 换 以 及 
用 这 种 变换 进行 信号 处 理 的 工具 是 熟悉 的 。 存 本章 中 ,我 们 首先 将 这 些 结果 推广 到 K HEK- 
DRE KK 可 以 是 任何 正 整 数 ,然后 集中 于 它们 在 三 维 视频 信号 中 的 应 用 。 我 们 将 揭示 空间 
和 时 间 频 率 的 意义 ,以 及 它们 的 相互 关系 。 最 后 讨论 对 不 同 频率 分 量 的 视觉 敏感 性 。 








2.1 多 维 连续 空间 信和 号 和 系统 


多 数 用 于 多 维 信号 与 系统 的 定理 和 技术 昆 一 维和 二 维 信号 与 系统 的 直接 推广 。 在 本 节 
中 ,我 们 介绍 在 维 实 空间 R* = [anaa] a ER, AEK) pef A E 
念 和 定理 ,这 里 及 是 实数 集 ,而 R=),2,…,K!。 我 们 从 定义 玉 维 信号 、K 维 信号 问 通 常 的 运 
算 以 及 特殊 的 K 维 信号 开始 ,然后 定义 维 信号 的 依 里 叶 变换 表示 。 最 后 ,我 们 定义 下 维系 
统 和 线性 移 不 变 系统 的 特 人 性。 叙述 有 意识 地 保持 简洁 ,我 们 也 有 意识 地 避免 讨论 各 种 积分 公 
式 的 收敛 条 件 。 这 个 课题 更 详尽 的 论述 可 参阅 参考 文献 [2]。 

定义 2.1 设 天 维 连 续 空 间 信号 y (x) ab 天 维 连 续 变 量 x= fr ,x;,… ,xx JERS 的 函数 。 
这 个 岗 数 能 取 任何 值 ,实数 和 复数 ,如 果 取 实数 就 称 为 实 丽 数 。 

信号 可 以 按照 矢量 空间 的 加 法 和 比例 运算 进行 组 合 。K 维 函 数 之 间 的 另 一 个 重要 运算 是 
卷 积 ,如 下 面 的 定义 所 示 。 

定义 2.2 两 个 定义 在 空间 R* 上 的 信号 w (x) 和 (x) 的 卷 积 定义 为 : 


V(x) * h(x) = [ge ¥ -apay (2.1.1) 
在 所 个 特殊 的 函数 中 ,8 PRB eae ARO ERE SRE RE 






























































作用 。 
定义 2.3 Re 中 的 8 AA 
w,x=0 
aw = (Fn 人 acowx-l (2.1.2) 
BANER FALLS 5 BORK BEES EY (OBEE KARR 
VOODI- =Y) (2.1.3) 
fp Y a- w da = ¥ Gm) (2.1.4) 


[Rr plo dx = oh) (2.1.5) 
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定义 2.4 {连续 空间 情 里 叶 变 换 ) 信号 (x) 的 连续 空间 传 里 叶 变 换 (CSFT)Y 定义 为 
v [a Y (xexp(— Jarxf "x) dx (2.1.6) 
RF fa [fj] ERE RTEA HME it 
定理 2.1 ( 遂 连 续 空间 傅 里 时 变 措 ) AMARTH CST 通过 下 式 得 到 : 
vix) = Jr Y, (Pexp(j2af?x) df (2.1.7) 
为 让 明 前 库 的 定理 ,把 公式 (2.1.6) 代 人 公式 (2.1.7) 的 右边 ,我 们 得 到 : 
Figs Y. (Dexpli2xt x) df = fe v D fpa PPG (x - y))dfdy 

















= i= Cy) Ox -= y)dy = W(x) 


第 一 个 等 式 可 由 公式 (2.1.5) 得 全 ,第 三 个 等 式 可 由 公式 (2.1.4) 得 到 。 

道 CSFT 表明 任何 信和 刁 Y( 切 可 以 表示 为 不 同 频率 的 复 指数 两 数 的 线性 组 合 。 在 特殊 频率 
上 的 CSFT 代表 相应 的 复 指数 基 两 数 的 贡献 卫 . 

多 数 一 维 伴 里 叶 变 换 的 性 质 吕 以 推 玫 到 外 维 的 情况 ,包括 线性 特性 、 平 移 , 普 积 等 。 这 里 
我 们 只 给 出 卷 积 定理 , 它 对 信号 分 析 是 很 重要 的 。 

定理 2.2 { 卷 积 定理 ) 两 个 天 维 信号 在 空间 域 的 眷 积 等 价 于 这 两 个 信号 在 频 域 的 乘积 ， 








BD; 
B(x) = Y (x) * A(x), (D = WDAOD (2.1.8) 
HHE MS CESS RARE T ENTE | BAS BT Bs 
$x) = ¥ a(S (ff) = YD x HA (2.1.9) 
定义 2.5 一 个 具有 KK 维 输入 输出 信号 的 系统 一 般 描述 为 : 
$a) = TI (x)i xe RK (2.1.10) 
& 8 (x) Hd OD PHAR EE ATR SO) FY GOR RSET, AREF et 
arao CRA: 
Tia Vilx) + a yan)! = afi (x) + af (x) (2.1.11) 
则 这 个 系统 是 线性 的 。 
进 - . 步 ,如 果 : 
了 人 (+ (2.1.12) 


DUT FAL AB AS EY. 
如 时 系统 既是 线性 的 又 是 移 不 变性 的 , 则 称 其 为 线性 移 不 变 的 (1SDP、。 -个 LST 系 统 对 冲 激 





在 维 情况 下 ,CSFT AB BS EK A PEE ULF] PR FY AEM R ATER ALLO Be ,全 为 典型 的 一 维 售 与 是 时 间 函 数 。 

在 本 书 中 ,我 们 用 频率 密谋 了 定义 CSET, TAS ALA ER O = 2zf， 在 我 们 的 定 文中 ,不 需要 用 On 时 化 ,因为 了 中 

的 每 个 变换 基 十 数 者 共有 单位 模 

E 公式 (2.1.6) 中 定义 的 得 里 时 积分 针 民 * 中 所 有 通 数 都 丰收 筑 ， 但 是 如 果 我 们 允许 传 旦 叶 变 换 包 含 8 PK ABA 
RU Ab HSE Se BR. EA ASL AS if HESS ATR MCU TL A, PN nS ERRARTE HAEE 
ROTHER HE RSW RO, 27 

“LATE LST BY LIL, 当 -一 维 信号 是 时 间 函 数 时 ,意味 线性 时 移 不 空 。 
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信和 号 3(x) 的 输出 信号 了 418(x)1 称 为 这 个 系统 的 冲 激 响应 BIL Ax). EM CSFT 称 为 系 
统 的 频率 响应 , 记 为 Ao 
定理 2.3 在 一 个 输入 和 输出 信号 属于 R* 的 LST 系 统 中 ,相应 于 任何 输入 信号 Y Ox) 

出 信号 %(x) 可 以 表示 为 % (x) 与 系统 冲 激 响 应 Ax) NEEL, Bs 

px) = Y (x) * h(x) (2.1.13) 
在 频 域 ,它们 的 关系 为 : 

DD = Y.(DH (D (2.1.14) 
FTE PRG RA BRERA, GOR, REEMA, H(f) 描 述 输入 
fe RE RIT TEA Pe Sb BOR eS, ' 个 LST 系统 完全 是 由 它 的 冲 激 响 应 (x) 和 频 
率 响应 H(f) 决 定 的 。 


2.2 多 维 离散 空间 信号 和 系统 


前 一 节 考 虑 的 是 定义 休 K 维 连续 空间 入 * 中 的 信号 。 也 有 一 些 应 用 场合 信号 木 身 是 离散 
的 ,也 就 是 说 信号 只 定义 在 离散 的 点 集 上 上 。 我 们 总 可 以 用 一 个 整数 矢量 来 标志 每 个 离散 的 点 ， 
这 样 信号 就 被 定义 在 维 整 数 空间 Z* = [n,m ng Im EZ, KEK] bh, KAZE A 
整数 的 集合 。 - 般 地 ,我 们 把 这 样 的 信和 号称 为 天 维 离散 信和 叶 或 序列 。 离 散 信号 的 一 个 特殊 情 
况 是 连续 信号 的 采样 形式 ; 下 章 我 们 将 讨论 采样 信 好 的 采样 过 程 和 和 性质。 在 这 一 节 中 ,我 们 
正式 定义 多 维 离散 信和 叶 和 系统 ,以 及 它们 的 离散 空间 傅 里 叶 变 换 的 特征 。 
定义 2.6 KERRAT (Æ KERBER n= [nnn] EZE HR, 
IX RET LA fE fE, FY VAE KRR SO BF OBR A E RA 
定义 2.7 两 个 离散 空间 信号 y(n) 和 h(n) 的 离散 卷 积 定义 为 : 
Ym) thm = > yn- mh(m) (2.2.1) 


me RE 





定义 2.8 离散 GR S(n) 定 义 为 : 
1n=0 


a(n) = 和 tab 
与 连续 函数 一 样 , 存 在 与 离散 8 RCA KARIER, TURAL (2.1.3 ~ 2.1.5) 

中 的 积分 可 以 得 到 这 些 性 质 。 
定义 2.9 (离散 空间 全 里 时 变换 AK 维 离散 信号 Y 《n) 的 离散 空间 伟 里 叶 变换 (DSET)D 


(2.2.2) 





Wilf) = >) Y (n)expl- j2xt"n) (2.2.3) 
neZ” 
这 里 ERE 表示 天 维 离散 频率 变量 。 
注意 ,由 于 公式 (2.2.3) 有 边 的 复 指数 项 ,DSFT 在 每 一 维 上 都 是 周期 性 的 ,并 且 以 为 周 
期 。 在 天 维 空 间 的 基本 周期 是 一 个 单位 超 立 方 体 , 记 为 Ts = WAE Ci 39) kEKI, 





O 全 一 纵情 况 下 ,DSFT SFA OT He Be DITET, 四 为 - 维 信号 典 志 地 是 讽 散 时 间 标 号 的 函数 。 
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基本 周期 在 所 有 整数 点 处 重复 。 由 于 这 个 原因 ,只 需 在 一 个 单位 超 立 方 体 Z* 上 规定 信号 的 
DSFT。 在 下 一 章 (3.1 节 ) 中 ,我 们 将 用 阵列 的 概念 正式 定义 天 维 信号 的 周期 性 。 
定理 2.4 ( 逆 离 散 空间 人 情 里 叶 变换 } 离散 空间 信号 可 以 通过 下 式 由 其 DSFT 重 建 : 
y(n) = fe W.(Nexp(j2af"n) df (2.2.4) 


根据 下 式 , 上 式 便 很 容易 证 明 : 























| expl2rt mar = a(n) (2.2.5) 
CSET 的 多 数 性 质 可 以 移植 到 DSFT。 特 别 地 , 卷 积 定理 仍然 适用 , 即 ; 
¥ On) hae 下 (DHCD (2.2.6) 


类 似 于 连续 空间 的 情况 ,我 们 可 以 用 离散 输入 和 输出 信号 定义 - :个 离散 空间 系统 。 如 果 这 
个 系统 是 线性 移 不 变 的 ,那么 它 可 以 完全 由 冲 激 响 应 , 即 对 于 离散 8 函数 的 系统 输出 h(n) = 
了 18(n)| 来 表征 。 对 于 任何 输入 信号 的 输出 可 以 由 这 个 输入 信号 与 冲 激 响 应 的 卷 积 来 表示 。 


2.3 ”视频 信号 的 频 域 特性 


视频 是 一 个 三 维 信号 ,具有 两 个 空间 维 (水 平和 垂直 ) 和 一 个 时 间 维 。 我 们 可 以 把 上 节 描 
述 的 CSFT 和 DSFT 直接 以 《= 3 分 别 用 于 模拟 和 数字 视频 信号 。 也 可 以 把 多 维 线性 系统 的 各 
种 概念 和 性 质 用 于 视频 处 理 系统 。 代 替 用 一 般 符号 (xi , x,, xs) 描述 一 个 三 维 信号 域 的 点 ,我 
们 将 使 用 (x,y,1), 用 x 和 y 指示 水 平和 垂直 位 置 ,用 + 指示 时 间 维 。 类 似 地 ,我 们 将 用 (/， 
万 :大 ) 表 未 与 这 些 坐 标 相 联 系 的 频率 。 读 者 自然 会 提出 的 问题 是 ,这 些 频 率 的 物理 意义 是 什么 
以 及 视觉 系统 如 何 感 知 它们 。 在 本 节 中 ,我 们 要 回答 第 一 个 问题 。 在 下 一 节 中 ,将 描述 入 类 视 
觉 系 统 的 频率 响应 。 


2.3.1 空间 和 时 间 频 率 


空间 频率 ”二 维 空间 频率 是 在 二 维 图 像 平 而 上 图 像 亮度 或 彩色 变化 快慢 的 一 个 度量 。 我 
们 可 以 测量 不 同方 向 上 的 空间 频率 。 在 给 定 方 向 上 的 空间 频率 是 用 该 方向 上 每 单位 长 度 的 周 
期 来 测量 的 ,单位 长 度 可 以 是 1 米 ,也 可 以 是 电视 监视 器 的 像 高 等 。 二 维 图 形 的 空间 变化 二 以 
完全 由 两 个 垂直 方向 上 的 频率 米 表 征 。 可 以 把 任何 方向 上 的 频率 投影 到 这 两 个 方向 上 。 通 
常 ,我 们 用 一 对 值 (f. ,f,) 表 征 二 维 图 像 信 号 的 空间 频率 ,它们 分 别 表示 水 平和 垂直 频率 。 例 
如 ,用 (x,y) = sin(10rx) 表 示 的 一 个 正 荡 图 形 的 频率 是 (3,0) ,其 中 在 水 平方 向 上 每 单位 长 
度 变化 5 个 周期 ,而 在 垂直 方向 上 保持 不 变 。 为 一 方面 ,图 像 y (a, y) = sin(10rx + 20ry ) 的 频 
率 为 (5;10) ,因为 在 水 平和 垂直 方向 上 每 单位 长 度 分 别 有 5 和 10 个 周期 。 这 幅 图 像 也 可 以 用 
每 单位 长 度 周期 为 /+f =11 县 沿 着 9 = arctan f/f) “64 方 向 的 一 个 频率 来 表示 。 这 两 
个 纯正 弦 图 形 如 图 2.1 所 示 。 

上 面 的 例子 是 具有 单一 频率 的 纯正 弦 形 式 。 利 用 傅 里 叶 变 换 , 任意 信号 都 可 以 被 分 解 成 
许多 正 蓄 形式 ,如 公式 (2.1.7) 中 的 逆 CSET 所 描述 的 那样 。 

角 频率 ”前 面 我 们 定义 了 根据 给 定单 位 长 度 在 特定 方向 上 的 空间 频率 上 。 然 而 这 种 测量 
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不 是 很 有 用 的 ,因为 所 感知 的 信号 变化 速度 随 着 观察 距离 而 增加 。 更 有 用 的 空间 频率 测量 是 
根据 每 观测 角度 的 周期 数 。 如 图 2.2 所 示 , 如 果 图 像 高 度 为 ,观察 距 离 为 d, 当 h/2<d 时 ， 











垂直 观测 张 角 9 Heh FRM: 


180 A Cie (2.3.1) 


D 


aq! 


a 





= 2arctan( 为) (弧度 ) = EGAR) = 


如 果 每 像 高 有 /个 周期 Geen Hine, 


我 们 称 为 角 频 率 , 它 


fe = 6.19 = a Oy OR 1 E) (2.3.2) 
的 单位 是 周期 / 度 , 或 者 cpd。 公 式 (2.3.2) 表 明了 空间 频率 与 角 频 率 之 








闻 的 关系 。 对 于 同样 的 图 像 ,f; 随 观 测 距 离 的 增加 而 增加 。 另 一 方面 ,对 于 固定 的 观测 距离 ， 
较 大 的 屏幕 尺寸 导致 较 低 的 角 频 率 。 这 些 结果 与 我 们 的 直觉 匹配 得 很 好 : 当 在 相当 远 处 观看 
时 ,同样 的 图 像 显得 变化 得 较 快 ,而 如 果 通 过 较 大 的 屏幕 观看 , 则 变化 得 较 慢 。 尽 管 上 述 关系 
是 通过 计算 垂直 方向 的 周期 数 次 定 的 , 角 频 率 也 可 以 沿 水 平方 向 或 任何 其 他 方向 定义 。 注 意 ， 
角 频 率 并 不 只 是 信号 本 身 的 表征 。 它 是 由 信号 的 空间 频率 和 观测 条 件 二 者 决定 的 。 











图 2.1 





























Ml] Z 


(b) 


DEERE, L) = 60: U, f= 5,10). AP AE 
直 单 位 分 别 是 周 像 宽 和 商 。 因 此 ,大 = 5 意味 着 每 行 有 5 个 周期 





图 2.2 观测 角 与 观测 距离 的 关系 ; 见 公式 (2.3.2》 


时 间 频 率 ” 对 于 一 维 的 时 间 函 数 ,时 间 频 率 的 定义 是 很 清楚 的 :每 秒 周 期 数 。 对 于 由 变化 
的 二 维 帧 组 成 的 视频 信号 ,时 间 频 率 是 由 二 维 位 置 决 定 的。 对 于 一 个 固定 的 二 维 位 置 (x, y) 
它 的 时 间 频 率 定义 为 每 秘 周 期 数 ,通常 记 为 Hz。 视 频 信 号 的 最 大 时 间 频 率 是 指 在 成 像 区 域内 
所 有 点 的 时 间 频 率 的 最 大 值 。 
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2.3.2 由 于 线性 运动 而 产生 的 时 间 频 率 


视频 信号 的 时 间 


频率 取决 于 成 像 景 物 的 变化 速率 , 它 可 以 是 由 摄像 机 运动 .物体 运动 或 二 


者 的 共同 运动 而 引起 的 。 通 常 在 一 个 场景 中 有 许多 可 能 进行 着 不 同 运动 的 物体 。 因 此 ,把 运 
动 与 时 间 频 率直 接 联系 起 来 并 不 容易 。 这 里 ,我 们 考虑 与 一 个 进行 着 线性 ( 即 以 恒定 速率 ) 运 


动 的 物体 相 联 系 的 时 
体 线性 运动 的 情况 。 
间 频 率 。 


示 。 设 景物 处 于 各 向 











则 在 时 刻 ! 的 成 像 图 

















为 时 刻 ¢ 的 点 (z， 








间 频 率 。 这 个 分 析 也 用 于 当 整 个 景物 进行 着 例如 由 摄像 机 平移 引起 的 总 
正如 我 们 将 要 看 到 的 ,时 间 频 率 不 只 是 由 运动 决定 的 ,也 决定 于 物体 的 空 


令 时 刻 0 物体 的 成 像 赂 形 用 w 。( *,y) 表 示 , 它 在 水 平和 垂直 方向 上 的 速度 用 w 和 zw 表 


均匀 的 坏 境 照度 下 ,使 得 同一 个 物体 点 在 不 同时 刻 具 有 相同 的 图 像 亮 度 , 
形 将 是 : 





Y(x,y,t) = Wolx ~ Visy - v4) (2.3.3) 
y) 对 应 于 时 刻 0 的 点 (x 一 wt,y 一 wt)( 见 图 2.3)。 这 称 为 恒定 亮度 假 








设 。 这 种 假设 有 效 的 条 件 将 在 5.2 节 中 进一步 解释 (公式 (5.2.11))。 对 上 述 信号 进行 CSFT， 


我 们 得 到 : 


WEA A= [[[¥ Cex dosnt rlf + fy + £4)) dedydi 


= [fete = ut, y = v,t}exp(— j2n( f(x - 0,1) 
+ f(y wt))) dady + [expl = jar(f + on + fo )1) de 


= Hol Ff) fexpl- Pay + fin, + fo) dt 
= PCA AIO + five + fm) 


EMA ,万 ) 表 示 Yo(x,y) 的 二 维 CSFT。 最 后 一 个 等 式 是 基于 公式 (2.1.5) 的 。 





] 





| 

| 

| 
1 a (e+ uty + vg) 
| | 

na 


1=0 1>( 


运动 下 的 恒定 强度 很 设 的 图 示 。 在 := 0 的 每 个 点 (x*，y) 移动 到 时 
刻 朵 的 点 (* + oy + ot) BOR (02,02) BORER 
变 。 或 者 说 ,时 刻 t 的 点 (z ,7) 对 应 于 时 刻 0 的 点 (xz - wi,y- 0,0) 





这 个 结果 表明 业 (f ,ff) 只 在 由 下 述 公式 定 义 的 平面 上 是 非 零 的 : 


Si + fits + fa (2.3.4) 
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这 意味 着 如 果 物 体 以 速度 (w , % ) 运 动 了 ,那么 由 物体 的 (f; A ) 表 征 的 空间 图 案 将 导致 一 个 时 
MAR: 

L =- fas- fm (2.3.5) 

2.4(a) 说 明了 对 于 给 定 的 速度 , 户 , 太 以 及 /之 问 的 关系 。 我 们 可 以 看 到 ,在 三 维 空间 

中 频谱 的 非 零 区 域 是 一 个 由 (wv., w,,1) 定 义 法 向 和 欠 量 的 平面 。 变 空间 信号 内 有 有 限 带宽 

Sessa S, m) SRO AEE Sra = fm + D Pon © 在 图 2.4(a) 中 ,上 = 大 =5, 因 此 ,对 

于 (wm) = (3,4), 则 有 大。 = 35。 














ov = (0.03 
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(by 


图 2.4 线性 运动 下 空间 与 时 间 频 率 之 间 的 关系 。{a) 相 应 于 两 个 不 同 的 速度 矢量 的 
CE:) 空 间 中 的 空 时 频 康 平面 ;(b) 时 间 频率 等 于 该 速度 在 空间 梯度 上 的 投影 


由 公式 (2.3.5) ,时间 频 率 不 只 是 由 速度 决定 的 ,也 决定 于 空间 频率 。 事 实 上 , 它 是 速度 矢 
量 在 空间 频率 矢量 上 的 投影 ,如 图 2.4(b) 所 示 。 可 以 立即 得 到 下 面 的 结论 ; 

ORL Hf =O AE vo, 的 值 为 多 少 ,都 有 =0。 这 意味 着 如 果 物 体 具有 完全 平坦 
的 图 形 ( 即 具有 均 义 的 党 度 或 彩色 ), 那 么 无 论 物体 沿 着 时 间 平 面 运动 得 多 么 快 也 不 会 
观测 到 时 间 的 变化 。 

MRA Ao, ,2 ) 与 空间 频率 方向 (/.,f, EI IPAM MR /; = 0。 空 间 频 
率 的 方向 (六 ,f ) 是 变化 玉 度 最 高 的 方向 。 它 的 乘 直方 向 是 没有 空间 灾 化 的 方向 。 这 个 
结果 表明 物体 在 其 图 形 不 变 的 方向 上 运动 不 会 产生 任何 时 间 变 化 。 当 物体 在 空间 变化 
最 大 的 方向 上 运动 时 ,时间 频率 最 大 。 

考虑 一 个 具有 正弦 竖 条 图 案 的 有 限 平面 ,如 图 2.1(a) 所 示 。 在 这 种 情况 下 空间 频率 的 方 

向 是 水 平 的 。 如 果 平 面 垂直 地 从 顶端 移动 到 底 端 ( 鲜 直 干 空间 频率 的 方向 ) ,那么 人 眼 是 感觉 
不 出 任何 变化 的 ,不 管 平面 运动 得 多 快 。-- 旦 这 种 运动 稍微 偏离 菲 直 方向 ,人 了 眼 就 会 开始 感觉 
到 时 间 的 变化 。 当 平面 水 平地 从 左 向 右 移 动 时 ( 沿 着 空间 频率 的 方向 ) ,感觉 到 的 变化 最 快 。 





























© 注意 ,对 于 实 信号 CSFT 中 对 称 的 ,因此 对 于 每 一 个 频率 分 基 ( 大 ,万 ), 也 存 站 -个 具有 同样 幅度 的 分 最 ( - f 
fo MRP SPO MOTE fo, + fv, o 
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[上述 分 析 是 对 于 进行 乙 定 速度 运动 的 物体 得 到 的 。 对 于 包含 较 复杂 景物 的 视频 ,多 个 物 
体 以 不 同方 式 运 动 ,我 们 可 以 把 图 像 区 域 分 成 小 的 区 域 ,以 便 使 每 个 小 区 域 可 以 认为 是 以 恒定 
的 速度 进行 同样 的 运动 。 在 这 个 区 域 的 局 部 空间 频率 和 速度 决定 了 与 这 个 区 域 有 关 的 局 部 时 
间 频 率 。 


2.4 人 类 视觉 系统 的 频率 响应 


视频 系统 最 终 是 以 观看 者 为 对 象 的 。 因 此 ,理解 人 类 视 党 系统 如 何 感觉 视频 信 生 屿 极其 
重要 的 。 在 1.1 节 中 ,我 们 描述 了 彩色 感觉 机 制 ;在 本 节 中 ,我 们 集中 丁 对 图 像 亮 度 的 时 间 和 
空间 变化 的 感觉 。 正 如 将 经 展示 的 ,HVS 对 视觉 网 形 的 秆 感度 是 出 向 形 的 时 间 和 空间 频率 成 
分 凑 定 的 。 在 某 些 中 间 的 空间 利 时 间 频 率 上 ,视觉 敏感 度 是 坡 识 的 。 然 后 敏感 度 迅 速 下 降 ,并 
在 某 些 截止 频率 上 进 隐 这些 频率 以 上 的 空间 和 时 间 变 化 对 于 人 有 眼 是 不 可 见 的 。 视 觉 频率 响 
应 的 知识 在 设计 视频 系统 中 中 非常 重 册 的 、 例 如 ,时 间 和 空间 截止 频率 足 确定 视频 摄取 和 显 
Fis AREF BL EAT TB ,我 们 首先 描述 HVS 的 空间 和 时 间 频 率 响应 ,然后 介绍 联 
合 的 空 时 频率 响应 ,最 后 ,我 们 描述 当 人 有 眼 凄 踪 运 动物 体 时 如 何 转换 视觉 疾 滨 响应 。 


2.4.1 ”时间 频率 响应 和 闪烁 特性 


HVS 的 时 间 业 北 响应 是 指 对 不 同 频 率 的 时 间 变 化 图 形 的 视觉 第 感度。 已 经 进行 了 很 多 实 
验 来 确定 HVS 的 时 间 频 率 响 应 。 研 究 结果 表明 观察 者 的 时 间 响应 决定 于 许多 因素 ,包括 观测 
距离 .显示 亮度 和 环境 照明 。 图 2.5 atl Sh Kely[5] 所 做 的 实验 得到 的 结果 。 在 这 个 实验 
中 ,为 观测 者 提供 了 一 个 平面 屏幕 ,其 党 度 以 下 面 的 形式 成 正 眩 普 化 ; 
Wt) = BO + meos2nfi) (2.4.1) 

对 于 国定 的 平均 亮度 级 B 和 频率 了 ,调制 度 m ERK, BOR ME BOE A 
mum ;此 时 屏幕 亮度 的 时 间 变 化 ( 邯 闪 烁 ) 刚 刚 变 得 不 可 觉察 。 下 然 ,mw 的 倒数 表示 观察 者 对 
于 给 定 频率 /的 时 间 变化 的 敏感 度 。 因 此 ,1mm 也 称 为 对 比 敏 感度 ,用 于 描述 视觉 敏感 度 或 
视觉 响应 。 对 比 敏感 度 作 为 频率 的 函数 称 为 调制 传输 函数 (MI ) o 

可 以 看 到 ,HVS 的 时 间 响 应 类 似 于 -个 带 通 滤波 器 的 响应 ,在 某 个 中 间 频 率 点 达到 峰值 ， 
然后 响应 壕 速 下 降 , 直 到 大 约 4.5 倍 的 峰值 频率 。 峰 值 随 着 图 像 的 平均 党 度 增 加 ， 例 如 , 当 平 
均 亮度 为 0.65 筹 阑 时 王 ,峰值 响应 出 现在 大 约 5 He, 而 截止 频率 ,也 就 是 啊 应 足 仍 小 的 地 方 ,大 
约 是 20~25 He. 另 一 方 电 , 当 平均 亮度 为 850 筹 阑 时 ,响应 在 大 约 15 ~ 20 Hz 时 最 高 ,大 约 在 
75 He BT, 

人 眼 在 较 高 时 间 频 率 处 敏感 度 降低 的 一 个 原因 是 大 眼 对 赂 像 的 感觉 能 够 保持 一 段 得 的 时 
间 ,即使 这 时 实际 图 像 已 经 移 止 了 。 这 种 现象 称 为 视觉 暂 留 双 。 一 方面 , 当 图 形变 化 速率 比 
HVS 的 刷新 率 更 快 时 , 它 会 引起 被 疯 察 图 形 时 间 上 的 模糊 。 另 一 方面 ,视觉 暂 留 合 视 频 信 号 品 


















































D Æ roland) EN T AEEA WREE EAR 

3 这 是 出 HVS 的 时 间 相 加 机 制 引起 的 , 它 对 进入 的 光 进 行 积分 、 古 劳 再 {Bloch) 定 律 指出 ， 供 分 或 继 桂 时 间 与 光 的 剖 
度 成 反比 [0]。 光 源 越 皖 ,积分 时 间 越 担 。 当 显示 较 党 时 , 它 给 予 人 眼 以 较 高 的 时 间 敏 感度 ,这 与 峡 2.5 所 示 的 结 
RRs. 
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不 为 一 个 连续 的 帧 序列 。 上 内 要 帧 间隔 比 视觉 暂 留 周期 短 , 则 人 有 眼 就 会 感觉 到 -一 个 连续 变化 的 
图 像 ， 当 帧 间隔 比 视觉 暂 留 央 期 长 时 ,人 了 眼 就 会 观察 到 帧 办 烁 ,这 种 现象 是 指 不 连续 帧 的 感 
觉 。 人 眼 察觉 不 到 闪烁 的 最 低 帧 率 称 为 临界 闪烁 频率 , 它 与 量 面 讨论 的 时 间 截 止 频率 在 定义 
上 是 等 价 的 。 视 频 摄取 或 显示 系统 采用 的 帧 率 应 该 大 于 临界 闪烁 频率 以 避免 闪烁 感觉 。 

从 图 2.5 中 可 以 看 出 ,临界 闪烁 频率 的 范围 是 从 20 到 80 下 ,取决 于 显示 的 平均 党 度 。 显 
示 得 越 亮 ,临界 频率 就 越 高 。 在 电影 院 里 ,平均 亮度 是 很 低 的 ; 男 一 方面 ,CRT 显示 就 要 亮 得 
多 ,接近 9 600 ER [8]、 这 就 是 为 什么 动画 系统 可 以 采用 低 于 电视 系统 的 帧 举 。 目 前 ,动画 
ALR 24 帧 / 秘 (fps) ,而 电视 业 采 用 50( 在 PAL 和 SECAM 系统 中 ) 和 60 EE NISC 系统 
和 )。 我 们 可 以 有 到 ,这 些 帧 率 和 场 率 都 接近 于 与 相关 应 用 场合 的 平均 亮度 水 平 相 联系 的 截止 
频率 、 计 算 机 显示 采用 苘 得 多 的 帧 率 72 fps ,因为 我 离 计 算 机 屏幕 比 离 电视 屏幕 近 得 多 ,而 在 
较 短 的 距离 视觉 阅 值 较 高 。3.3.1 凶 给 出 了 关于 如 何 确 定 视频 系统 的 裕 间 -时 间 采 样 率 的 史 详 
细 的 讨论 。 
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2.4.2 空间 频率 响应 


HVS 的 空间 频率 响应 是 指 对 于 具有 有 不同 空 间 频 率 的 静止 空间 图 形 的 视觉 敏感 度 。 假 设 视 
觉 敏感 度 关于 空间 变化 的 方向 是 各 向 回 性 的 ,都 么 就 可 以 对 于 一 个 任意 的 空间 方向 计算 出 空 
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间 频 率 响应 ,通常 是 用 水 平和 和 王 直 方向 中 。 为 了 使 响应 独立 于 观测 的 距离 ,空间 频率 响应 通常 


表示 为 角 频 率 的 函数 。 为 





确定 HVS 的 空间 频率 响应 已 经 做 了 很 多 实验 。 结 果 发 现 HVs 的 空 


间 频 率 响应 也 类 似 于 一 个 带 道 滤波 大 ,峰值 响应 大 约 在 2~5 周 / 度 (cpd) ,在 大 约 30 cpd 处 退 
Ba. M Kelly[6] 进 行 的 研究 结果 如 图 2.6 所 示 。 这 个 结果 足 通过 观察 在 水 平方 向 上 正弦 变 化 


的 -个 竖 条 图 形 得 到 的 , 即 : 


时 空间 变化 刚刚 变 得 不 可 觉察 、 图 2.6 的 垂直 轴 表 示 1/m 





¥(x,¥,t) = BC + meos2rfr) (2.4.2) 
这 个 图 形 显示 在 具有 很 高 刷新 率 (1 000 fps) 的 CRT 监 示 器 上 ,因此 可 以 认为 它 在 时 间 上 是 静 
止 的 。 对 每 个 给 定 的 空间 频率 /, 调 制度 m 基 变 化 的 ,要 求 观察 者 确定 最 小 的 调制 度 m, ,此 

















借助 为 消除 人 眼 运动 影响 所 设置 的 各 种 稳定 器 得 到 的 。 


图 2.6 出 一 个 视觉 实验 获得 的 HVS 的 空间 闫 率 响应 。 三 条 





。 图 中 示 出 了 三 条 曲线 ,它们 是 
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8 线 是 由 不 同 的 为 消除 扫 视 眼 


运动 影响 的 稳定 器 得 到 的 .实心 回 是 在 于 常 的 没有 稳定 器 的 条 件 下 获得 的 ;空心 
方块 是 在 具有 最 住 增益 的 稳定 器 下 获得 的 ;空心 加 是 存 增益 大 约 变化 5% 下 获得 的 


当 观看 景物 时 , 眼 


率 。 例如 ,在 图 2.6 中 ， 


fio A— FH, HRAN 
峰值 响应 大 约 移 到 4 cpd。 


视 眼 运动 有 增强 对 比 度 敏感 度 的 作用 


清 经 常 快速 地 从 一 个 图 定位 置 跳 到 另 一 个 位 置 。 这 称 为 扫 视 眼 运动 
[4]。 研 究 已 经 发 现 , 打 


,但 是 会 降低 峰值 响应 出 现 的 频 


正常 眼 运动 比 没有 了 眼 运动 ( 即 戴 着 稳定 器 ) 的 观察 者 敏感 度 大 约 高 10 





E 常 服 运动 时 ,峰值 响应 出 现在 大 约 2 


cpd, 但 是 当 完 全 去 除 眼 运 动 时 ， 


空间 频率 响应 的 带 通 特性 可 以 好 因 于 HVS 有 效 进 行 的 带 道 滤波 工作 。 已 经 发 现 HVS 的 


冲 激 响 应 波 形 类 似 了 








F 高 斯 函数 的 拉 普 拉 斯 运算 (墨西哥 草 幅 有 








EAR) ,在 视觉 细胞 附近 是 正 的 权 


重 , 而 对 于 较 远 的 细胞 是 负 的 权重 。 正 的 部 分 起 平滑 作用 ， 而 负 的 部 分 有 效 地 增强 尖锐 边缘 。 
负 加 权 效 果 是 由 视觉 皮层 的 侧 抑制 引起 的 [1] 。 





全 ”实际 上 ,视觉 敏感 度 对 于 水 平和 焉 吉方 向 上 的 变化 比 其 他 方向 商 。 


em 


第 2 章 视频 信号 的 傅 里 叶 分 析 和 人 类 视觉 系统 的 频率 响应 35 





在 3.3.1 节 , 我 们 将 说 明 在 确定 视觉 系统 的 水 平和 簿 十 采样 频率 时 如 何 考虑 HVS 的 空间 
频率 响应 。 


2.4.3” 空 时 频率 响应 


前 面 给 出 的 空间 频率 响应 是 在 零 时 间 频 率 定 值 的 , 反 过 来 也 一 样 。 这 里 我 们 讨论 空间 和 
时 间 频 率 都 是 非 零 时 的 视觉 响应 。 已 经 发 现 ,在 较 高 的 时 间 频 率 上 ,空间 频率 响应 的 峰值 频率 
和 截止 频率 都 向 下 偏 移 。 对 于 时 间 频 率 响应 也 有 类 似 的 倾向 。 

图 2.7 示 出 了 Robson[ 12] 的 实验 结果 。 这 个 实验 中 的 测试 图 形 由 下 式 农 述 : 
 (x,y,t) = BO + meos(2xf,x)cos(2nft) ) (2.4.3) 
对 于 一 个 A 和 / 的 固定 组 合 , 调 制度 m 是 变化 的 , 要求 观察 者 确定 最 小 的 调制 度 man ,此 时 空 
疗 和 和 时间 的 变化 刚刚 不 可 觉察 。 图 2.7 中 的 垂直 轴 代 表 mano 我 们 可 以 看 到 ,在 零 时 间 ( 空 
间 ) 频 率 附近 ,空间 (时 间 ) 频 率 响 应 具有 带 通 特性 。 这 与 前 面 所 示 的 结果 是 一 致 的 。 但 是 在 较 
高 的 时 间 ( 空 间 ) 频 率 上 ,空间 (时 间 ) 频 率 响应 变 得 更 像 一 个 低 通 滤波 器 ,当时 间 空间) 频率 
增加 时 峰值 响应 下 降 。 这 表明 当成 像 图 形 运动 得 很 快 时 ,人 眼 不 能 区 分 图 形 中 很 高 的 空间 频 
闪 。 当 赂 像 前 止 时 ,人 眼 能 够 分 辨 襄 得 多 的 空间 频率 。 类 似 地 ,在 较 涡 的 空间 频率 上 ,时 间 响 
应 变 成 低 通 ,并 且 在 较 高 的 空间 频率 上 过 渡 频 率 向 下 仿 移 。 
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图 2.7 HYS 的 空 时 频率 响应 。(a) 对 于 不 同 的 时 间 频 率 1 了 (空心 圆 ) .6 Hz( 实 心 圆 )、 
16 Hz( 空 二 角 ) 和 22 Hz( 实 三 角 ) 的 空间 频率 响应 .(b) 对 于 不 同 的 空间 频率 0.5 epd 
( 室 心 圆 ).4 cpd( 实 心 圆 ),16 cpd( 空 三 角 } 和 22 epd( 实 三 角 ) 的 空间 频率 响应 


这 个 空间 与 时 间 频 率 响应 之 间 的 彼此 相反 的 关系 ,对 于 视频 系统 的 设计 意味 着 可 以 用 时 
间 分 辩 率 换取 空间 分 状 率 , 反 过 来 也 一 样 。 这 个 性 质 已 经 被 明智 地 利用 于 模拟 电视 系统 的 隔 
行 扫描 机 制 中 。 对 于 隔行 扫描 ,为 了 用 有 限 的 帧 率 时 现 快速 变化 的 场景 ,一 帧 被 分 成 叮 场 ,每 
场 的 行 数 是 一 巅 的 一半 。 因 为 当时 间 频 率 高 的 时 候 ,HVS 具有 降低 的 空间 频率 响应 ,所 以 人 眼 
不 能 区 分 快速 变化 场景 中 很 高 的 空间 频率 ,部 使 它 是 以 很 高 的 空间 分 辩 率 呈现 的 。 因 此 ,采用 
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较 低 的 空间 分 辩 率 是 合适 的 。 另 - 方 而 ,当成 像 场景 静止 时 ,在 两 个 分 离 刀 中 的 行 组 合 起 来 提 
供 - 个 痪 的 空间 分 辩 率 ,以 适应 HVS 的 较 高 的 空间 频率 分 解 能 力 。 

间 与 时 间 响 应 之 问 的 彼此 柑 反 性 也 解释 了 为 什么 当 我 们 近 距 离 观看 电视 时 会 感觉 到 行 
网 烁 在 这 神情 况 下 , 行 被 进一步 分 开 而 第 频率 变 低 。 在 低 的 角 频 率 下 ,人 最 在 时 间 上 更 敏 
蚀 . 央 此 较 容 易 感觉 到 闪烁 

Robson 的 实验 是 在 正常 二 [ 视 眼 运动 下 进行 的 ,后 来 Kelly 又 进行 了 一 个 实验 ,用 稳定 技术 
消除 扫 视 运动 的 影响 7]。 为 测试 时 间 响 应 ,他 用 行 波 代替 闪烁 波 - 得 色 的 空 时 频率 响应 的 赵 
势 古 类 似 的 ,但 是 由 运动 引起 的 时 间 了 响应 大 约 是 由 闪烁 波 引 起 的 两 售 。 这 意味 着 人 眼 对 由 运 
动 引 起 的 时 间 变 化 比 由 闪烁 引起 的 时 间 变 化 更 敏感 。 

2.4.4 平滑 追踪 腿 运 亏 

AE 2.4.1 节 所 述 的 实验 表明 AVS 不 能 分 辩 大 于 80 Hz 的 时 间 频 率 ,但 实际 上 当 人 有 眼 追 
踪 物 体 时 ,例如 当 棒 球 击 球 于 筷 踪 快 球 时 ,人 贝 能 够 看 消 快速 运动 的 物体 。 这 是 因为 当 人 服 追 
MOTRIN ,物体 的 相对 送 动 变 得 较 小 。 如 果 夺 到 完全 追踪 ,那么 物体 看 起 米 是 静止 的 。 人 腿 自 
动 运动 以 追踪 被 观察 物体 的 现象 称 为 平滑 追踪 服 运动 [11,4] 。 

为 了 说 明 人 眼 的 追踪 效应 ,我 们 需要 把 显示 屏幕 上 的 时 空 频率 转移 到 人 有 眼 移动 时 的 视 网 
AREP [3]。 没 人 眼 是 以 迷 度 v, Ale, 运动 ,那么 在 视网膜 坐标 下 观测 的 图 像 灾 (x,y, 1) 与 显 
IWER PREHRY (x,y, 让 之 癌 的 关系 为 : 

Fy) = y+ tt) (2.4.4) 








HUW UAT CSET AE 
PAL) = YR fodi- wf) (2.4.5) 


SR OR ATE ER J JO RCE ZTE 
为 : 
Safe hhh = front (2.4.6) 
当 被 显 估 物体 的 时 间 频 率 为 零 时 ,感觉 到 的 时 间 频 次 随 着 眼睛 运动 速度 和 被 观测 物体 空 
也 频率 的 增加 而 增加 。 当 被 观测 物体 以 恒定 速度 运动 时 , 产 牛 的 时 间 驱 率 由 公式 (2.3.5) 所 揪 
述 。 固 此, 当 眼 运动 与 物体 运动 匹配 时 ,视网膜 上 的 有 效 时间 频 闲 为 零 ， 一 般 地 ,通过 追踪 物 
体 运动 ,视网膜 上 的 有 效 时 间 频 率 会 降低 。 
利用 公式 (2.4.6) 的 华 祭 变换 ,Griod ET Robson 测量 的 视觉 频 率 响应 。 同 2.8 示 出 了 
没有 平 党 追 崇 眼 运 动 以 及 在 两 个 不 同 的 眼 运动 速度 下 的 视觉 频率 响应 。 在 这 个 图 中 ,对 比 第 
感度 的 测量 与 图 2.5~ 图 2.7 不 网 ,因此 其 不同 的 尺度 。 显 然 , 半 滑 追踪 腿 运动 的 效果 是 把 
视觉 响应 的 恬 零 区 域 扩 展 到 - -个 较 大 的 时 间 频 率 范 围 。 事实 上 ,可 以 察觉 到 高 达 1 000 Hz 的 
有 时间 频 率 '3,131。 
WEBI Girod 所 指 上 1 的 [3], 平 请 追踪 腿 运 动 对 于 视频 显示 和 处 理 系统 的 设计 是 重要 的 。 为 
了 避免 快速 运动 物体 的 可 视 模糊 , 显示 系统 必须 能 够 显示 达到 1 000 Hz 的 时 间 频 率 、 同 样 , 进 
行 任何 类 型 的 时 间 滤 波 必 须 带 有 运动 补偿 { 即 沿 运动 轨迹 滤波 ) ,以 避免 图 像 内 容 的 可 视 模糊 。 
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(b) () 


图 2.8 AE BARI FA) HVS 的 空 时 响应 :( 目 没有 半 滑 追踪 根 运 动 ; 
(b) 在 2 度 / 秒 的 眼 运动 速度 下 ;Ce) 在 10 度 / 秒 的 眼 运动 速度 下 


2.5 小 结 


多 维 信号 与 系统 的 傅 里 时 分 析 (2.1 及 2.2 节 } 

一 个 维 连续 (离散 ) 信 号 可 以 由 一 个 连续 (离散 ) 空 间 傅 里 叶 变 换 表 示 ( 公 式 (2.1.6 及 
2.1.7) 用 于 CSFT, 公 式 (2,2.3 及 2.2.4) 用 于 DSFT)。 递 变换 的 存在 意味 着 该 信号 可 以 
分 解 为 万 限 多 个 具有 不 同 频 率 的 复数 二 弦 消 数 。 

© —F IS] 系统 可 以 完全 由 它 的 冲 激 响应 ,或 者 等 价 地 由 它 的 频率 响应 ( 即 冲 激 响应 的 傅 
里 叶 变换 ) 来 表征 (定理 2.3)。 

旬 一 个 LSI 系统 的 输入 和 输 吉 信号 通过 在 空间 域 与 冲 激 响 应 的 卷 积 ,或 者 通过 在 变换 域 
与 频率 响应 的 乘积 联系 在 一 起 ,分 别 由 公式 (2.1.13) 和 (2.1.14) 给 出 。 


视频 信号 中 的 空间 和 时 间 频 率 {2.3 节 )} 
se 视频 信号 的 二 维 空间 频率 可 以 沿 着 任何 两 个 正 交 的 方向 规定 ,通常 沿 水 平和 垂直 方向 。 
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运动 物体 的 时 间 频 闵 是 由 它 的 速度 和 空间 频率 决定 的 。 更 明确 地 说 ,任何 图 像 点 的 时 
问 频率 与 速度 矢量 在 物体 上 该 点 的 空间 频率 方向 的 投影 成 止 比 ,如 公式 (2,3.5) 和 图 
2.4 所 未 


HVS 的 空间 和 了 时间 频率 响应 (2.4 节 ) 
日 人 眼 对 某 个 中 间 的 空间 和 时 间 频 率 分 上 最 敏感 。 在 正常 的 观测 条 件 下 ,人 眼 对 2 ~ s cpd 
之 疝 的 空间 频率 及 5 20 Hz 之 间 的 时 间 频 率 最 敏感 。 
ERER ILME ,眼睛 不 能 觉察 空间 的 变化 。 这 些 截止 频率 出 现在 空间 频率 大 约 为 
0 cpd ,以 及 时 间 频 率 20 ~ 80 Hz 之 间 。 这 些 视 觉 阅 值 的 组 合 为 设计 视频 处 理 各 显示 系 
统 提供 指导 ,系统 只 讶 提供 两 倍 下 视觉 岗 值 的 频率 。 
© FR WR OS 了 隔 行 显示 是 场 率 ) 超 过 临界 闪烁 频 举 ,对 本 大 多 数 人 来 说 是 80 Hz LAT 
眼 将 感觉 不 到 一 个 个 的 帧 。 
视觉 频率 响应 取决 于 显示 的 平均 亮度 。 一 般 情 况 下 , 较 党 的 显示 可 以 使 入眼 对 高 向 分 
日 当 人 限 追踪 运 动物 栖 时 ,在 视 网 膜 上 感觉 的 时 间 频 率 降低 。 当 完全 追踪 时 ,视网膜 平面 
上 的 时 间 频 率 为 零 ， 
O 在 视频 提取 、 处 理 和 显示 中 ,HVS 的 截止 频率 是 确定 空间 和 时 间 采 样 分 辩 率 的 主导 因素 
(这 个 问题 将 在 3.3.1 节 中 进一步 讨论) 


w 








> 








2.6 习题 


2.1 摄像 机 的 冲 激 响应 通常 模型 化 为 : 

TIF late Biiyte Bre (07) 

0 其 他 
这 里 TT, 是 摄像 机 光圈 的 水 平和 垂直 尺寸 , 7, 是 曝光 时 间 。 求 出 Alx, yt) h 
CSET. 画 出 幅度 响应 、 并 讨论 参数 T, T, T, 对 摄像 机 频率 响应 的 作用 ,, 

2.2 假设 问题 2.1 所 述 的 摄像 机 正在 摄取 一 个 屏幕 ,其 中 含有 一 个 各 边 宽度 为 B 并 与 
AURA RETA, BY RL EM LMT ERA, 

Yat) = -~ B+ vd <x < BI2+ r,t, - BR < y< BD 
o 其 他 


hlx,y,t) = | (2.6.1) 








(2.6.2) 

求 出 摄像 机 所 摄取 的 信号 ， 假 设 Bs T,, BST, o 

2.3 当 设计 一 个 视频 摄 生 或 显示 系统 时 ,为 确定 帧 举 和 行 数 你 会 有 哪些 考虑 ”选择 的 这 
些 参数 适用 于 NTSC 彩色 电视 广播 吗 ? 

2.4 为 什么 计算 机 监视 器 比 典型 的 电视 机 监视 器 采用 更 高 的 时 间 刷 新 家 和 行 数 ? 

2.5 考虑 电视 屏幕 上 的 一 个 具有 100 周期 / 像 高 的 机 条 图 形 。 如 果 像 高 为 1 米 ,观众 坐 在 
BUDE 3 米 远 的 地 方 ,那么 以 cpd 为 单位 的 等 效 角 频率 是 多 少 ?如果 观 众 坐 在 K 
或 5 米 远 的 地 方 呢 ? 在 每 种 情况 下 ,观众 能 够 从 当地 感觉 到 垂直 变化 吗 ? 











i ee 
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2.6” 苦 碟 一 个 平坦 的 、 最 大 空间 频率 为 (j; A) (3,4) 周 / 米 的 各 向 均匀 的 纹理 表面 , 它 
以 恒定 的 速度 (vw, ,wm ) = (1,1) 米 / 秒 运动 。 物 体 表面 任何 一 点 的 时 间 闫 率 是 多 少 ? 
如 果 速 度 为 以 下 各 值 (单位 是 米 / 秒 ):(4, — 3), (4,0), (0,1) ,结果 又 怎样 呢 ? 


2.7 《〈 接 2.6 题 ) 假 设 人 眼 以 与 物体 相等 的 速度 追踪 运动 的 物体 。 对 了 


PAJERO ERE, BLD 





膜 上 感觉 到 的 时 间 频 率 是 多 少 ? 如 果 人 了 眼 以 固定 的 速度 (2,2) 米 / 秒 运动 呢 ? 
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第 3 章 视频 采样 


任何 数字 视频 处 理工 作 的 第 “ 步 部 中 把 本 质 上 连续 的 视频 信号 转换 为 数字 视频 信 叶 。 数 
字 化 过 程 包括 两 步 ;采样 和 量化， 这 上 可 以 用 数字 摄像 机 实现 , 它 产 接 把 连续 的 物理 场景 视频 数 
字 化 ,或 者 通过 把 模拟 摄像 机 产后 的 异 拟 信号 数字 化 来 实现 。 我 们 也 经 党 需要 把 数字 视频 信 
号 从 -种 格 式 (在 空间 和 时 间 分 辩 率 方面 ) 转 化 为 另 - .种 格式 ,例如 把 一 个 视频 录像 从 PAL Hy 
式 转化 为 NTSC 格式 。 这 一 章 我 们 考虑 采样 问题 ,采样 率 转 换 问题 将 在 第 4 章 讨论 ;量化 问题 
将 在 第 8 章 与 信号 压缩 的 其 他 方法 一 起 过 论 。 

设计 - .个 视频 采样 系统 ,必须 解决 三 个 问题 :(1) 在 空间 和 时 间 广 向 上 必需 的 采样 频率 是 
什么 ? (2) 给 定 总 采样 率 ( 即 水 平 、 亚 直 和 时 间 采 样 率 的 乘积 ) 时 ,怎样 在 三 维 空间 采样 才能 得 
到 最 好 的 表示 ? (3) 假 设 只 能 使 用 有 限 的 采样 率 ,如 何如 免 采样 的 混合 效应 ? 本 章 从 介绍 多 维 
生 呈 采样 的 一 般 理论 入 平 ,把 信号 频谱 与 它 所 需要 的 采样 图 案 联系 起 米 (3.1 节 及 3.2 节 )。 
然后 重点 讨论 视频 信 妇 的 采样 (3.3 节 )。 首 先 描述 决定 视频 信号 所 涯 采 样 率 的 因素 ,以 及 在 
实际 系统 中 经 常 做 出 的 权衡 考 虑 。 然 后 讨论 二 维 采样 方案 并 比较 逐 行 和 隔行 扫描 。 我 们 也 考 
虞 如 何 采样 彩色 视频 信号 ,并且 作为 -个 例子 得 次 回 到 BT.601 属 式 。 随 后 我 们 介绍 几 种 二 维 
采样 点 阵 并 比较 它们 的 效率 。 最 后 ,描述 通用 视频 摄像 机 和 显示 器 是 如 何 隐 含 地 完成 预 滤波 
和 内 插 功 能 的 ,并 讨论 一 些 实际 的 局 限 性 (3.4 节 )。 


3.1 点 阵 理论 基础 


在 本 节 和 下 - 节 , 我 们 把 众所周知 的 一 维和 二 维 信号 采样 理论 推广 到 -一般 的 多 维 空间 。 
KKEL SF 维 信号 , 样 点 通常 是 以 规则 的 间 师 抽取 的 。 邓 于 二 维 信和 叶 , 样 点 通常 是 在 给 
JERA 上 抽 志 的 。 实 际 上 .也 可 以 在 非 年 甩 格 李 上 拙 取样 点 ,只 要 这 个 格 棚 具有 了 能 用 整数 矢量 
来 指定 格 棚 点 的 结构 。 数 学 上 把 这 种 类 型 的 格 栅 称 为 点 阵 。 本 节 引 入 维 空域 点 阵 的 概念 。 
下 一 节 将 讲述 如 何 用 点 阵 对 连续 信息 进 行 采样 。 

在 点 阵 上 采样 多 维 信 导 的 理论 首先 尾 由 Petersen 和 Middleton[ 7] 提 出 的 。Dubois 出 色 地 考 
察 了 相关 的 理论 ,并 扩展 到 用 在 点 阵 中 所 选择 的 子 点 陈 的 障 集 集合 进行 采样 [4]。 本 章 只 介绍 
对 于 分 析 多 维 空间 采样 过 程 很 重要 的 那些 概念 和 件 质 。 关 于 点 阵 理论 详细 的 阐述 ,读者 可 参 
阅 参考 文献 [2] 。 这 里 介绍 的 定义 和 定理 二 紧 基 于 文献 [4] . 

定义 3.1 实 久 维 空间 Rt 中 的 点 阵 A, 是 可 表示 为 KMAR ERE y ERE BE 
太 = 11,2,…, 妇 的 整数 加 权 组 合 的 所 有 如 能 矢量 的 集合 。 即 ， 


As {x ERK 
矩阵 LV] = Dy svi sv JES AE RE PES, 


















































ES 
x= Ynya EZ} (3.4.1) 
a 


To ERARI. 
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例 3.1 FAR? 中 具有 以 下 生成 无 阵 的 两 个 点 阵 : 
1 0 V32 0 

= ; = 3.1.2 

A hg iva [S 6.1.2) 


AT RBA EERE SIMA AEEA kI RTRA E A, BER 
定 出 对 应 于 基 矢 量 典 型 的 整数 加 权 组 合 的 点 ;例如 太 + 王 ,Vi 一 Vy 等。 基于 这 些 点 ,我 们 
通常 可 以 通过 视觉 观察 外 推出 其 他 所 有 可 能 的 点 。 接 照 这 个 步 骆 ,我 们 在 图 3.1(a),(b) 
中 衣 出 了 根据 两 个 给 定 的 生成 扼 阵 所 确定 的 点 阵 。 征 如 所 预期 的 ,第 一 个 点 阵 为 简单 的 
矩形 格 宙 ,因为 [Vi] 是 对 角 矩 阵 。 第 二 个 点 阵 是 所 谓 的 六 角形 点 阵 。 尽 管 一 组 基 秋 量 或 
PERSE LEENA EE, BOP RRA RRR ERE RAE Ae KKB 
的 。 事 实 上 ,可 以 容易 地 找到 生成 相同 点 阵 的 一 个 以 上 的 基 欠 量 或 生成 矩阵 。 例 如 ,可 以 
证 明 , 对 于 图 3.1(b) 中 的 点 阵 , 另 外 一 组 基 秋 量 是 Vi = (V3/2,1/2]",v, = 3,0]. 























o o o o o 
o o o o 
< +x =a 
o o o o 
o o 
o o o o 申 o 
tb) 
A 
本 
o o o o o 
o o o o o 
> f, >f 
o o o o o 
o o o o o 








{d} 


图 3.1 点 阵 及 其 反 商 点 降 的 例 Fs (EAE (DAUA RE (OERA ER R; 
(dd) 入 边 形 点 阵 的 反 商 。 每 个 点 阵 的 阴影 部 分 表示 该 点 阵 的 沃 罗 纳 品 格 


对 于 一 个 给 定 的 生成 移 阵 ,点 阵 由 的 任意 一 点 均 可 由 与 它 相关 的 整数 系数 n, k EKER 
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A. 使 用 先 阵 符 芒 ,我 们 可 以 用 整 型 矢量 n= [yyy EZ 表示 点 阵 中 任何 一 点 。 该 
点 的 余 际 位 置 是 x= LV]n。 点 阵 中 任意 一 点 均 可 由 一 个 整 型 矢 基 标示 的 事实 使 点 阵 成 为 以 规 
则 风 何 形状 采样 连续 信号 的 -个 优美 的 丁 具 。 

下 而 ,我 们 介绍 点 阵 的 一 此 重要 性 质 . 

定理 3,1 给 定 一 个 点 找到 一 个 单位 般 格 (A), 它 辣 所 有 阵 点 的 平移 形成 对 整 
ARE 宗 间 的 一 种 分 割 ( 即 非 重 丛 覆 闵 ); 即 : 

VU +x) = RE 和 +R) Nt) = 如果 x xy (3.1.3) 

其 中 以 + x= lptxipEU RRUFE x, 而 8 代表 空 集 。 

定理 3.1 告诉 我 们 R* 空 科 本 以 由 选 定 的 单位 晶 格 及 上 暴 平移 表示 为 一 个 花 铸 面 ,如 图 3.2 
所 示 。 这 种 表示 在 我 们 考虑 R* 空间 的 基 化 时 是 有 用 的 。 攻 | 3.1 所 示 的 两 种 分 制 是 均匀 量化 
R 空间 的 两 种 方法 . 



























图 3.2 XPA 3.1(b) 所 示 点 阵 的 单位 品格 ,(a 基 本 平行 四 过 形 ;(b) 沃 罗 纳 晶 
恪 “单位 晶 烙 及 其 向 所 有 阵 点 的 平移 形成 了 对 连续 空间 的 -种 分 割 


与 一 个 点 阵 相关 的 单位 竟 烙 并 不 是 改 - -的 。 事 实 上 ,若是 A FSB AAA UU + x, 
Vx ABLE. EILA p ,下 面 定义 所 介绍 的 基本 平行 四 边 形 和 
TRB AN ( Voronoi) 品格 是 最 有 用 的 。 

定义 3.2 HIER it vy, ,kE 大 的 - ` 个 点 阵 的 基本 平行 四 边 形 是 由 下 式 定义 的 集合 ， 

Pia) = [re Rx = Dav yog <!} (3.1.4) 
WAZ, CAA TER BK RNS. 

图 3.1(b) 给 出 的 点 阵 的 基本 平行 四 边 形 如 图 3.2(a) 所 未 、 如 图 中 所 示 出 的 , 莫 本 平行 四 
边 形 太 其 向 所 有 竹 点 的 平移 形成 了 对 空间 R* 的 -种 分 制 ,因此 这 个 基本 平行 四 边 形 是 一 个 
单位 电 属 。 显 然 ,由 于 生成 基 的 不 惟一 任 ,有 很 多 与 :个 点 阵 相 应 的 基本 平行 四 边 形 。 

定义 3.3 ”一 个 点 阵 的 沃 罗 纳 晶 梢 是 更 接近 原点 而 木 是 点 阵 中 的 任何 其 他 点 的 那些 点 的 
ERa B 





























VA) = ix € RA] d(x,0) < dx,p), ype Af (3.1.5) 
图 3. COMET EA H IAA SR A A EI 3.2(b) 所 示 . 与 本本 平行 外边 形 一 样 , 沃 罗 纳 
卓 格 及 其 向 所 有 阵 点 的 平移 形成 了 对 空间 RR* 的 一 种 分 割 。 因此 沃 罗 纳 唱 格 也 是 -- 个 单位 蝇 
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格 。 我 们 将 看 到 , 沃 罗 纳 唱 格 对 于 分 析 采 样 过 程 是 非常 有 用 的 。 在 图 3.1 中 ,每 个 点 阵 的 阴影 
区 域 指示 它 的 活 罗 纳 晶 格 。 正 如 所 预期 的 ,矩形 点 阵 的 沃 罗 钠 唱 格 是 一 个 简单 的 矩形 。 第 一 
个 点 阵 的 沃 罗 纳 蝇 格 古 一 个 六 个 边 相 等 的 六 边 形 ,这 是 它 称 为 六 边 形 点 阵 的 原因 。 

在 二 维 情况 下 ,确定 - -个 点 阵 的 沃 罗 纳 晶 格 , 可 以 先 在 原点 和 每 个 最 近 的 非 零 阵 点 之 间 画 
一 条 直线 ,然后 在 两 点 之 同 的 中 点 加 一 条 垂 线 。 这 条 线 是 原点 和 该 阵 点 之 间 的 中 线 。 所 有 围 
绕 诛 点 的 这 些 中 线 所 形成 的 多 边 形 即 为 沃 罗 纳 品格 ,如 岁 3.3 所 示 。 对 于 二 维 情况 ,这 个 过 程 
可 以 通过 把 垂 线 赫 换 为 重 面 进行 推广 。 




















o Ra 

oo 从 原点 到 最 近 孟 点 
的 连 线 

-~ 中线 


图 3.3 通过 画 中 线 确定 沃 罗 纳 品 格 
单位 晶 格 的 容积 和 采样 密度 ”注意 ,尽管 点 阵 的 单位 唱 格 并 不 是 惟一 的 ,单位 晶 格 的 容积 
却 是 惟一 的 ,这 是 因为 不 管 单位 晶 格 的 形状 如 何 ,需要 同样 数目 的 单位 晶 格 去 覆盖 R* 的 有 限 
子 空 间 。 根 据 基本 代数 理论 ,由 矩阵 [V] 中 的 列 身 量 形成 的 基本 平行 四 边 形 的 容积 等 于 矩阵 
行列 式 的 绝对 值 。 因 此 ,基本 平行 四 边 形 以 及 其 他 任何 单位 蝇 格 的 容积 均 为 19et[V]1。 显 然 ， 
单位 而 格 越 小 ,就 有 越 多 的 阵 点 存在 于 给 定 的 容积 中 。 因 此 ,单位 品格 容积 的 倒数 是 采样 密度 
的 度量 ,我 们 把 它 记 为 : 








1 
d(A) = Tae v] i (3.1.6) 


这 个 变量 描述 在 R* 的 单位 容积 内 存在 多 少 阵 点 。 对 于 图 3.1(a) 和 (hb) 给 出 的 商 个 点 省 , 窜 易 
证 明 它们 的 采样 密度 分 别 为 di =1 和 d, = 2W3。 

定义 3.4 ”给 定 一 个 牛 成 矩阵 为 的 点 阵 , 它 的 反 商 点 阵 可 定义 为 具有 如 下 牛 成 矩阵 的 
AM: 














[U] = ([v]")-' RIV] U] = 1 (3.1.7) 

由 定义 ,如 果 x=[V]mEA,y=TUjnEA' ,那么 xzry= m [VJ [U] mrnGZ。 也 就 是 

说 ,分 别 来 自 两 个 点 阵 的 任意 两 点 的 内 积 是 一 个 整数 。 关 系 式 (3.1.7) 表 明 AMA 的 基 矢 量 
是 相互 正 交 的 , 即 ,wn = ôu, Yk TECK, OBA k=l, W Su = 1, 否 则 oy = 0。 因 为 det[V] 


= Ude [U ,所 以 两 个 点 降 的 采样 密度 是 余数 关系 , 即 aC") = jg, 这 意味 着 人 越 密 ,和 A" 就 


44 视频 处 理 与 通信 





ERMD, BIKAR 
例 3.2 对 于 例 3.1 给 出 的 并 示 于 图 3.1(a) 和 (b) 中 的 两 个 点 隆 , 它 们 的 反 商 生成 矩阵 是 : 
1 0 2/43 -13 
tul- [y jos 
APU] PARRE ANTANSALRERE PY RAMS ERARR RAP 
所 有 的 点 。 结 果 如 图 3.1(c) 和 (dd) 所 示 . 反 商 点 降 的 沃 罗 纳 晶 格 也 在 这 两 个 图 中 给 出 。 
BAAS) UTR AE, REAR RAT RY RBH HPA 
RG RAAT AAA PAAR, AVERT ARH, A, A, 
密集 ,而 如 AS ASE. 


定理 3.2 SA MA 分 别 代表 共有 生成 矩阵 [Vi IV PT PE, RLV, C] 
FE — PFT BE ABZ ER: 
A fay = IKE RS YxEA HxXE Al 
也 是 一 个 点 阵 ,并 且 它 是 包含 于 A 和 As 二 者 中 的 最 大 的 点 阵 、 在 同样 条 件 下 ,A, 与 A 的 
M: 


(3.1.8) 


A, +A, = ixtyl Vx A YyYEA} 

也 是 - -个 点 阵 , 它 是 包含 于 A 和 A 二 者 中 的 最 小 的 点 阵 。 进 - - 步 ,A A) = AY NAS 

定理 3.3 FACA MM AT DAS. RESER BA CA, MV(A) OVA), 

Tip US RAT VAG Ik A KE: ET, ARRA Vn 的 点 ,其 中 mnEZx， 
WEVER RERE, AE 4.1 节 讨 论 采样 率 转换 时 ,这 些 定理 的 用 处 将 会 显现 出 来 。 

用 点 阵 概念 表征 周期 性 ”我 们 者 很 熟悉 一 维 周期 性 的 概念 。 如 果 交 (x) =Y Ce + nT)， 
YAaEZ ,我 们 说 一 个 现 数 是 以 7 为 周期 的 周期 栈 数 。 点 阵 概念 的 一 个 重要 应 用 是 描述 多 维 
基数 的 周期 性 ,定义 如 下 。 

定义 3.5 如 朵 对 于 任意 n€ 3X Av (x) = 由 (x+ [Vlm) , 则 -个 函数 是 周期 性 的 , 生 其 有 
非 奇异 的 周期 矩阵 [Y]。 

显然 ,所 有 重复 中 心 的 集合 [Vjn,nE 34 ,形成 了 一 个 呈 有 生成 托 阵 [Y] 的 点 阵 。 因 此 , 当 
用 一 个 点 阵 来 描述 - -个 丽 数 的 周期 性 时 , 它 也 称 为 周期 性 点 阵 。 我 们 记得 EARE 可 以 被 分 
割 成 无 汰 多 个 该 点 阵 单位 各 格 的 移 位 一 木 。 央 此 ,-- 个 周期 函数 可 以 认为 是 在 所 有 其 他 移 位 
的 单位 品格 处 重复 所 选择 的 单位 唱 格 的 基本 图 形 。 我 们 称 该 点 阵 的 沃 多 纳 晶 格 为 这 个 函数 的 
基本 周期 。 对 于 周期 为 了 的 一 维 泊 数 ,基本 周期 是 中 心 位 于 原点 的 时 间 间 隔 ( - 772, 712)。 
一 个 周期 沙 数 实质 上 是 由 基本 局 其 以 及 这 个 周 朋 在 所 有 阵 点 上 的 移 位 副本 组 成 的 。 有 显然 只 需 
要 在 它 的 基本 周期 上 规定 - -个 周期 函数 。 


3.2 在 点 阵 上 采样 

















点 阵 结构 为 用 -个 均匀 的 但 不 一 定 是 超 立 方 体 的 格 插 采样 连续 信号 提供 了 一 个 漂亮 的 工 
县 。 它 使 我 们 能 够 用 整数 矢 其 为 所 有 的 样 点 标号 ,简化 了 对 采样 后 所 产生 的 信号 的 描述 。 在 
点 阵 上 采样 是 在 二 维 的 卸 形 格 栅 或 K 维 的 超 立 方 体格 栅 上 均匀 采样 的 一 个 推广 。 正 如 将 要 
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说 明 的 ,使 用 这 种 采样 结构 ,所 有 已 知 的 一 维和 二 维 均匀 采样 定理 仍然 成 立 。 尤 其 是 ,存在 推 
广 的 奈 率 斯 特 采样 定理 , 它 决定 了 对 于 给 定 的 信号 频谱 ,采样 点 阵 所 需要 的 密度 和 结构 


3.2.1 采样 过 程 和 采样 空间 的 傅 里 叶 变换 


定义 3.6 给 定 一 个 连续 信号 .x),x€ER* ,在 生成 矩阵 为 LV] 的 点 阵 A 上 的 采样 信号 
定义 为 : 











岁 :(m) =Y.([V]n),n E 2 (3.2.1) 
B -种 定义 采样 信号 的 方法 是 把 它 当做 在 采样 点 具有 冲 激 的 连续 空间 信和 号 , 即 
v(x) = >; wala - [V]n) x E RE (3.2.2) 


nEZ 
在 2.2 节 里 我 们 定义 了 离散 空间 傅 里 叶 变换 。 类 似 地 ,我 们 可 以 定义 在 一 个 点 阵 上 采样 
信和 对 的 传 里 时 变换 [5,4]。 这 里 我 们 称 之 为 采样 空间 傅 里 叶 变换 (SSFT)。 与 通过 采样 点 抽象 
的 标号 定义 的 DSFT 相 比 ,SSFT 的 定义 保持 了 图 像 中 离散 信号 的 港 在 采样 结构 ,并 且 使 我 们 能 
够 与 实际 的 物理 维 建立 联系 。 
定义 3.7 对 于 在 一 个 具有 生成 矩阵 [V] 的 点 阵 A 上 的 被 采样 信号 ,SSFT 定义 为 : 
W.(f) = 2, W {mexp( ~ j2xf" V]n) (3.2.3) 








利用 公式 (3.2.2) 中 的 定义 ,可 LEJEREN Si CSET 等 于 它 的 SSFT。 因 此 ,SSFT 定义 与 CSFT 
定义 一 致 。 而 且 , 当 点 阵 是 超 立 方 体 时 ,SSFT 简化 为 DSFT, 此 时 [VY] 是-… 个 K 维 异 等 矩阵 。 

注意 到 若 fx= n€Z ,exp(j2nf"x) = 1, 我 们 有 : 

Vf+ (Ulm) = Y. (t), [U] = ([V]7) 

这 意味 SSFT 是 局 期 性 的 ,以 周期 性 矩阵 [U] 为 周期 ,并 日 频谱 重复 中 心 落 在 采样 点 阵 的 反 商 
A 上 。 基 本 周期 是 反 离 点 阵 的 沃 罗 纳 晶 格 V(A” )。 因 此 ,只 需 确定 在 7(A* ) 上 的 被 采样 信号 
的 SSFT， 这 个 基本 图 形 在 反 离 点 阵 的 所 有 点 上 重复 (在 3.2.2 节 对 此 做 了 详细 的 描述 利 
示 )。 

EHS. PRES OES) ”一 个 在 生成 矩阵 为 [V] 的 点 阵 A 上 的 被 采样 信号 
可 以 由 它 的 SSET 得 到 , 即 ， 


,Cn) = Tohe, Y, Hexp(jnf"|V] a) df, n€ Z* (3.2.4) 


证 明 这 个 反 变 换 公式 的 正确 性 ,可 以 通过 用 公式 (3.2.3) 中 的 止 变换 代替 公式 (3.2.4) 中 
HY, (O) ,并 使 用 等 式 : 






























































ing 
ive ,exp(j2rx f)df = 


volume )t = dA), x= 
[rate (A) = d(A), x= 0 (3.2.5) 


其 他 
公式 (3.2.4) 中 的 反 变 换 表 明 , 一 个 采样 信号 可 以 表示 为 复 指数 函数 的 无 限 求 和 , 复 指数 
函数 的 频率 以 反 商 点 阵 的 沃 罗 纳 品 格 定义 。 
CSET 的 所 有 性 质 均 可 转移 给 SSFT。 我 们 这 里 只 给 出 卷 积 定理 。 定 理 的 证 明 是 简单 的 ,并 
留 做 一 个 练习 (习题 3.4)。 
定义 3.8 在 同一 个 点 阵 上 采样 的 两 个 信号 的 卷 积 定义 为 ; 
v(m) * h(a) = > v.n- mh, (m) = X PVI - m))h ([V]m) 


mez* 





(3.2.6) 
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JEPY (x) A h, OOS HEY ,{n) 和 h(n) 的 连续 着 数 。 
定理 3.5( 采 样 空间 卷 积 定理 ) 与 CSFT 和 DSFT 一 样 ,采样 空间 中 两 个 信号 的 卷 积 等 价 
于 它们 的 SSFT 的 乘 税 , 即 : 
Vn x h, (meo Y, (fH (3.2.7) 
采样 线性 移 不 变 系 统 的 表征 ”给 定 一 个 在 连续 空间 RR* 上 上 的 冲 激 响 应 为 及 (x) 的 线性 移 
个 变 系 统 , 若 对 输入 和 输出 信号 在 点 阵 A 上 采样 , 则 可 以 证 明 (习题 3.5), 被 采样 的 输入 信号 
W On) =w, (VI 与 输出 信息 各 (n) = (1V1n), 具 有 前 面 定义 的 在 A 上 的 卷 积 关系 ,而 下 
滤波 器 恰恰 叱 被 采样 的 脉冲 响应 A, Cn) = h.([Vjn)。 内 此 ,被 采样 的 系统 完全 由 被 采样 的 脉 
冲 响应 大 (nm) 表征 
3.2.2 推广 的 奈 奎 斯 特 采样 定理 
定理 3.6( 推 广 的 容桂 斯 特 采 样 定理 ) 如 果 一 个 连续 信 号 W , (x),xE Rr 在 生成 矩阵 为 
[V] 的 点 阵 A .上 被 采样 ,那么 采样 信号 的 SSFT,¥ (n) =, ([V]n) nE 3x 是 原始 连续 信号 
的 CSET BACHE BR PE AY ST ESAS OLAS EA SRL SEN BD 
VD = d(A) > Ef- CUm) (3.2.8) 
AH RAA SI CSFT 的 非 替 区 { 称 为 支撑 区 ) CE LI AER S ALA MATL A 
能 够 从 被 采样 信号 完全 恢复 原始 连续 信号 , 即 ; 
Vf = 0, EVA) (3.2.9) 
进而 ;可 以 通过 用 其 有 如 下 频率 响应 ( 按 CSET 定义 ) 的 重建 滤波 器 对 采样 信号 进行 滤波 实现 
完全 重建 ; 





1 FEV) 
0, 其 他 

容易 看 出 ,定理 3.6 是 一 维 奈 计 斯 特 采 样 定理 的 推广 。 在 那个 特殊 情况 下 ,[Y] = [A]， 
[U] = TIAA] ,并 且 d(A) = VA RKB A 为 采样 间隔 。 与 一 维和 二 维 信号 一 样 ,我 们 把 重复 频谱 
KRENE, BONE RIA, 如 到 A ER HRR EAR BE AB ATTERRA HEP SRE 
KEMAH MRE AR ECAP CAS ) , 那 么 相 邻 的 混 营 分 量 将 会 重 天 使 原始 高 
频 分 芋 折 释 到 低频 区 。 这 个 效应 称 为 泥 要 。 我 们 已 经 知道 ,A 越 密集 ,A' RARE 内 此 ,使 
用 较 密集 的 采样 格 桶 会 进一步 分 离 频 域内 的 混 鸭 分 基 ， 从 而 减少 被 采样 信 号 的 混 苹 效应 。 

对 于 一 个 固定 的 采样 点 阵 ,为 了 避免 混 三 ,原始 的 连续 信号 应 该 用 如 下 预 滤波 器 进行 带 
限 : 


H(f) = | (3.2.10) 











1,£E ViA*) 
Hf) = tose 
ROAA, EOE CAUCE RE DEAR AARNE FAL ACA UL BTR BCA 
定义 支撑 区 的 低 通 滤波 器 。 
为 证 明定 再 3.6, 我 们 可 以 利用 道 CSET， 和 由 公式 (2.1 7) 有 ， 


¥ Cn) = YIVJm = [oy VCDesp(j2rf’ LV In) df 


(3.2.11) 
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= >I, oo MoE = [Wham expat ~ FUIm) [Vin) df 
mez’? 
= SI (f= (U]m)exp( janf? [VIn) df 
me Ze VAD 
= far, D, Welt = [Uln) expt jant” [Vln) at 
A) ez 


把 最 后 一 个 等 式 与 公式 (3.2.4) 比 较 ,就 会 得 到 公式 (3.2.8) 的 结果 。 

例 3.3 考虑 一 个 具有 图 3,4(a) 所 示 频 谱 的 二 维 信 号 , 它 具 有 半径 r=1N3 的 贺 形 支撑 区 。 如 果 
我 们 用 图 3.1(a) 所 给 出 的 点 阵 采样 该 信号 , 采 祥 信号 的 频谱 将 如 图 3.4(b) 所 示 , 它 是 通过 在 
图 3.1(e) 所 示 的 反 商 点 阵 的 各 点 重复 原始 频谱 得 到 的 。 显 然 ,由 于 信号 的 支撑 区 大 于 反 商 
REAR DA, ARES MEP RAO EA ER, HERES ATT ee 
号 进行 预 泪 波 ,使 其 频谱 只 在 沃 罗 纳 晶 格 内 是 非 零 的 ,如 图 3.4(e) 所 示 。 如 果 我 们 现在 用 同 
GREER TRH, RAD ERAS Bi SRE, tod 3.4(d) 所 
Ro ARQER EK SEE TH aS HERS SA, we RAO) MR, E 
R RAEE 5 AMES Aa SAT RMR D, to RAR RAR REE HA 
部 带宽 ,那么 就 需要 琳 样 点 阵 具 有 一 个 等 于 或 大 于 信和 号 支撑 区 的 反 商 沃 罗 纳 唱 格 。 仙 例如 ,如 
果 我 们 使 用 图 3.1(b) 所 示 的 六 边 形 点 阵 , 那 么 信号 频谱 正好 与 它 的 反 商 点 阵 的 沃 罗 纳 晶 格 
相配 含 ,如 图 3.4(e) 所 示 , 采 样 信号 的 频谱 将 如 图 3.4( 门 所 示 不 发 生 混 登 。 在 这 种 情况 下 ， 
重建 信号 将 是 完全 的 。 不 用 图 3.1(b) 所 给 出 的 六 边 形 点 阵 ,我 们 可 以 仍然 使 用 一 个 具有 较 
小 采样 间隔 A, = A =Y312 < 1 的 矩形 点 阵 。 这 将 导致 一 个 较 高 的 采样 密度 。 回 想 我 们 前 面 
导出 第 一 个 和 第 二 个 点 阵 的 采样 密度 分 别 是 | 和 2M3, 而 前 面 那个 缩小 了 的 矩形 点 阵 的 采 
样 密度 为 43 ,高 于 六 边 形 点 阵 。 从 这 个 例子 可 以 着 出 ,六 边 形 点 阵 比 天 形 点 阵 更 有 效 , 因 为 
要 得 到 无 混合 采样 , 它 只 需要 较 低 的 采样 密度 。 


3.2.3 采样 效率 


如 例 3.3 所 说 明 的 ,为 了 和 避免 混 垂 ,设计 采样 点 阵 时 必须 使 其 反 商 点 阵 的 沃 罗 纳 品格 完全 
覆盖 信号 的 频谱 。 显 然 ,总 可 以 设计 一 个 非常 密集 的 点 阵 米 满足 这 一 要 求 , 然 而 ,这 将 要 求 很 
高 的 采样 密度 。 为 了 最 小 化 采样 密度 ,点 阵 的 设计 应 使 其 肥 商 沃 罗 纳 蝇 酝 尽 可 能 紧 污 地 歼 盖 
信号 频谱 。 解 决 方案 将 依赖 于 信号 的 频谱 , 它 一 般 可 能 具有 一 个 任意 形状 的 支撑 区 。 

素 运 的 是 ,大 部 分 现实 世界 的 信号 在 不 同方 向 上 (适当 标 度 频 率 轴 以 后 ) 的 频谱 成 分 是 对 
称 的 ,它们 的 频 计 支撑 区 可 以 被 很 好 地 近似 为 球形 。 因 此 ,为 了 比较 不 同 点 阵 的 采样 效率 ,我 
们 可 以 计算 一 个 具有 半径 为 1 的 球形 支撑 区 的 信号 所 需 的 采样 密度 。 为 了 避免 混合 ,采样 点 
阵 反 商 的 沃 罗 纳 品格 (A* ) 必 须 包围 这 个 球 。V(A* ) 越 紧凑 地 充满 球 ,所 需要 的 采 伴 密度 就 
趣 低 。 这 导致 采样 效率 定义 如 下 ， 














中 采样 效率 的 另外 一 种 定义 是 将 PCA” ) 的 体积 与 柳 旅 球 的 单位 立方 体 的 体积 比较 得 到 的 , 即 : 
oa = A )) 


lumet fE A 
根据 这 个 定义 , 较 小 的 值 表 示 较 高 的 有 效 性 。 
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lume( 单 位 球 ) 
volu SUA (3.2.12) 





(A) = Yalame( 单 位 球 ) _ 
PAO? = bolume VA )) ~ 
上 面 的 值 越 接近 1, 点 阵 就 越 有 效 。 


h 
4 










































































(由 








s. 


f) 


3.4 频 域 采 样 过 程 图 示 :(a) 原 始 信号 ;(b) 用 图 3.1(e) 所 示 的 矩形 点 阵 采 样 的 信号 ;(e) 预 波 
波 的 信号 ; (4) 经 过 预 滤波 的 采样 信号 ;(e) 铺 在 图 3,1(d) 所 示 的 六 边 形 分 割 上 的 原始 
信号 的 频谱 ;1 使 用 六 边 形 点 阵 的 采样 信号 。 本 图 中 最 深 的 阴影 代表 频谱 的 最 高 幅度 
我 们 记得 ,单位 球 的 体积 在 二 维 情况 下 为 r, 三 维 情况 下 为 4/3x。 另 外 一 方面 ,覆盖 球 的 
最 小 立方 体 的 体积 在 二 维 情况 下 为 4, 三 维 情况 下 为 8。 因 此 ,立方 体 点 阵 的 效率 在 二 维 情况 
下 为 /4, 三 维 铺 况 下 为 16。 因 此 立方 点 阵 对 于 采样 具有 球形 支撑 的 信号 不 是 很 有 效 。 
3.5 示 出 了 覆盖 球形 的 几 种 二 维 点 阵 的 效率 。 可 以 看 出 ,六 边 形 点 隆 覆 盖 球 最 紧凑 。 


因此 ,采样 效率 也 可 以 相对 于 六 边 形 点 阵 的 密 许 进行 定义 ,这 时 六 边 形 点 阵 的 效率 变 为 1。 
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+) ( ) 
六 
d(A) = 4.p(A) = d(A) = 4, p(A) = 于 (A) = 253. p(A) = 5 


图 3.5 二 维 矩形 BETES a ER 


3.2.4 预 滤 波 器 和 重建 滤波 器 的 实现 


在 前 面 的 讨论 中 ,我 们 已 经 在 频 域 描述 了 理想 的 预 滤波 器 和 重建 滤波 器 。 采 用 逆 CSET, u 
以 得 到 空间 域 的 等 效 滤波 器 。 尽 管 预 滤波 操作 必须 完全 在 连续 域 进行 ,但 重建 操作 可 以 简化 , 震 
为 输入 信号 愉 在 被 采样 的 点 上 存在 。 为 了 导出 空间 域 的 等 价 内 播 运算 ,让 我 们 把 采样 后 的 信 苇 
认为 是 在 采样 点 上 有 冲 激 的 连续 信号 ,正如 公式 (3.2.2) 所 描述 的 。 于 是 滤波 运算 可 以 简化 为 : 


vw) = hls Dw 














-5 Bela) ih -0 ~ [VDay 3.2.13) 


= 5, yn (x - [Vjn) 


这 样 在 x 点 的 内 折 信 是 所 有 采样 信 的 加 权 和 ， 对 于 样 点 n 的 权 值 为 h(x - [Vjn)。 这 是 众 所 
周知 的 一 维 内 插 公 式 的 天 维 形式 。 

注意 ,由 于 期 望 频率 响应 中 的 锐 过 渡 带 ,理想 的 预 滤波 器 和 内 插 滩 波 器 将 具有 无 限 的 空间 
扩展 。 实 际 上 ,只 有 有 限 扩展 的 滤波 器 是 可 实现 的 。 我 们 将 在 4.1.4 节 中 讨论 滤波 器 设计 的 
问题 。 


(3.2.5 连续 ,离散 和 采样 空间 傅 里 叶 变 换 之 间 的 关系 


注意 到 被 采样 信号 % ,(m) 是 2.2 节 所 述 的 离散 空间 信号 的 一 种 特殊 情况 。 因 此 ,可 以 把 
公式 (2.2.3) 所 定义 的 DSFT 应 用 于 在 任意 点 阵 上 被 采样 的 信和 号。 与 SSFT 比较 ,DSFT 没有 考 
虚 到 实际 采样 的 几何 结构 。 由 定义 ,我 们 有 : 








VD = 2) $n)exp(- jarf [V]n) (3.2.14) 
ne Zk 
WiC = >) y(n)exp(- j2nfn) (3.2.15) 
aez" 


比较 这 两 个 公式 ,我们 看 到 ， 
Wi) = PUIN, £6 Tt, 和 YE = VIDEVA) (3.2.16) 
这 告诉 我 们 ,在 单位 超 立 方 体 7* 中 的 DSFT 是 在 Zt 的 扭曲 V(A'* ) 上 的 SSFT 图 像 ,或 在 ?(A* ) 中 的 
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SSFT 是 在 P(A- eat IZ* EAODSFMORR. BRR ft, 与 连续 频率 变量 的 关系 为 : 











= (Ulf, = (VV "8, Af, = [VJ = [LU (3.2.17) 
A ‘GY, (区 之 问 的 关系 ,我 们 有 : 
Pa) = dH) > 由 (CUT- UIm) (3.2.18) 
meZ" 


如 果 《在 V(A' ) 内 是 带 限 的 ,那么 : 
VD = dA Y UJN, tE TE (3.2.19) 
显然 ,出 :站 是 周期 性 的 ,其 重复 中 心 位 于 所 有 的 整数 点 上 , 耐 这 些 点 对 应 于 连续 频 域 中 入 "内 
的 点 - 
我 们 还 记得 ,在 - - 维 情况 下 ,如 果 我 们 以 采样 频率 上 采样 连续 信号 ,离散 频率 和 连续 频率 
WREE fy = ff , 并 卫 离 艇 频 域 的 基本 间 期 ( - 12,1/2) 对 应 连续 频 域 的 基本 周期 ( - 上 /2， 
12)。 这 是 此 处 对 于 维 信号 所 描述 的 情况 的 一 个 特例 ,其 中 LY]= [UVA],[U] =[A]。 




















3.3 视频 信号 的 采样 





前 面 各 节 给 出 了 一般 天 维 仿 导 的 采样 定理 。 在 本 章 剩 下 的 各 节 中 ,我 们 重点 讨论 三 维 信 
号 的 采样 。 下 个 空间 维和 时 间 维 是 不 对 称 的 ,因为 它们 有 不 同 的 特性 ,并 且 对 于 空间 和 时 间 频 
座 的 视觉 敏感 度 是 不 同 的 。 这 种 不 对 称 性 导致 了 几 种 有 趣 的 视频 采样 技术 的 提出 。 

尽管 视频 信号 在 空间 和 时 间 上 足 连 续 变化 的 ,但 今 大 的 摄像 机 还 不 能 在 所 有 三维 上 完全 
连续 地 担 取 信和 全 -大 多 数 运动 图 片 括 像 机 在 时 间 方 向 上 对 景物 进行 采样 ,并 把 一 个 模拟 图 像 
帧 的 序列 人 存储 在 胶片 上 。 另 一 方面 .大 多 数 TV 摄像 机 趣 通 过 在 时 间 和 垂直 方向 进行 采样 来 
摄取 视频 序列 的 - 产生 的 信号 存储 在 一 个 一 维 光栅 扫描 中 , 它 是 少 老 相继 的 水 平 扫描 行 的 连 
成 一 中 的 颜色 变化 。 为 了 获得 一 个 完全 的 数字 视频 ,可 以 对 运动 狗 片 摄像 机 产 牛 的 模拟 帧 进 
行 二 维 采样， 或 对 TY 摄像 机 产生 的 借 氢 光 凯 扫描 进行 一 维 采 样 , 或 用 数字 摄像 机 对 景物 进行 

: 维 采 样 二 接 获 得 离散 视频 帧 。 不 同 的 采样 方案 对 应 不 同 的 采样 点 阵 .在 设计 数字 视频 采样 
系统 时 ， 必须 回答 的 岗 个 问题 是 :(1) 记 需 的 视频 采样 率 是 多 少 ? (2) 在 给 定 总 的 采样 率 时 , 哪 
一 种 采样 点 阵 最 有 效 ? 本 节 先 描述 确定 所 需 的 视频 采样 率 的 因素 ,然后 讨论 二 维 采 样 方案 ,并 
且 对 连 行 扫 接 和 陆 行 提 描 进行 比较 。 接 证 来 ,介绍 几 个 三 维 采 样 点 阵 并 对 它们 的 效率 进行 比 
较 ， 最 后 , 举 个 特殊 的 例子 说 明 空间 和 时 间 混 春 效 应 


3.3.1 所 需要 的 采样 率 


在 设计 视频 采样 系统 时 ,无论 一 维 、 二 维 还 足 二 维 , -个 必须 品 答 的 基本 问题 昆 , 空 间 和 时 
间 采 样 的 分 辩 率 应 该 是 多 少 ? 答案 由 几 个 因素 决定 : 待 采样 信 呈 的 频率 成 分 ,在 空间 和 时 间 截 
止 频率 方 而 的 视觉 疝 值 , 摄 摊 和 总 示 设 备 的 特 件 , 以 及 可 承受 的 处 理 ,存储 和 传输 成 本 。 基 于 
采样 定理 ,如 果 我 们 采用 立方 体 点 阵 , 每 维 上 的 采样 塞 至少 应 为 该 方向 上 最 高 频率 的 两 倍 。 另 
一 方面 ,从 2.4 节 可 知 ,人 眼 不 能 分 辨 超过 一 定 高 的 频率 的 空间 和 时 间 变 化 。 尽 管 信 号 的 最 高 
























































































TO PRAT LON REZ * WRK, AEE EY CA"). EE PD, COND y CREIRIEN, RAY (E 
工 * RAT VA ) 的 木 同 部 分 。 在 习题 3.6 中 对 此 做 了 进一步 的 考虑 ~ 
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频 滨 可 能 变化 相当 大 ,而 视觉 截止 闫 率 . 即 可 以 被 HVS 观察 到 的 空间 和 时 间 的 最 高 频率 ,应 该 
居 确 定 视频 采样 众 的 决定 因素 ,不 需 容纳 这 些 值 以 外 的 频率 成 分 。 有 建 由 假设 ,技术 总 是 能 被 
推进 以 适应 人 类 的 需求 。 

如 2.4 节 所 述 ,视觉 敏感 度 依赖 于 显示 器 前 平均 亮度 。 对 于 很 党 的 TY 信号 ,视觉 阔 值 要 求 
帧 率 大 于 70 He, 市 空间 分 辩 率 至 少 是 30 epd。 在 屏幕 高 度 王 倍 的 正常 观测 虹 离 上 ,25 epd 的 空间 
频率 换算 为 大 约 500 行 / 帧 (Ipf)。 对 于 每 - 行 采样 ,水 平 采样 闻 隔 应 大 致 等 于 垂直 间 照 ,这样 产生 
的 像素 是 方形 的 { 即 PAR 为 1)。 这 导致 大 约 670 像素 / 行 , 共 显示 500 行 ,IAR 为 4:3。 

在 模拟 TY 系统 被 开发 出 来 的 时 候 ,视觉 截止 频率 所 要 求 的 这 些 采 样 率 超过 了 当时 的 技术 
水 平 。 为 了 降低 码 率 进而 降低 视频 摄取 ,传输 和 显示 的 成 本 ,隔行 扫描 被 提出 来 了 ,对 于 给 定 的 
总 但 率 ( 帧 率 和 行 率 的 乘积 ) , 它 靠 师 性 筷 直 分 辨 率 来 提高 时 间 分 辩 率 。 例 如 ,如 1.4 节 所 讲 的 ， 
在 NTSC TY 系统 中 ,每 秒 摄取 60 个 场 ,但 每 场 只 包含 所 期 单行 数 的 一 半 (240 有 效 行 / 场 )。 与 采 
用 30 fps 和 480 ]pf 的 逐 行 打 描 的 总 码 率 是 相同 的 。 如 果 景 物 足 静止 的 ,通过 每 一 场 扫描 线 的 交 
错 , 它 能 够 产 牛 与 采用 60 fps 各 480 pf 逐 行 了 | 描 一 样 的 质量 。 但 对 于 共有 特殊 网 案 ( 垂 直线 图 
案 ) 的 高 速 运 动 场景 , 它 会 慎 化 所 谓 的 “隔行 效应 ”"。 下 一 代数 学 TY 系统 运行 在 30 fpe 和 480 lpf 
方式 或 60 场 / 秒 和 240 行 / 场 方式 。 隔 行 格式 的 保留 主要 是 为 了 与 模拟 Tv RARA, HIV 系统 
进一步 加 强 视觉 效果 ,采用 AR 为 16:9, 采 样 分 辨 率 为 60 fps 和 720 lpf 的 较 宽 的 屏幕 。 同 样 为 了 
兼容 目的 ,也 可 以 采用 60 场 / 秒 和 540 行 / 场 的 隔行 格式 ( 见 表 1.3)。 

对 于 运动 图 片 ,由 于 电影 院 的 环境 亮度 很 低 ,降低 了 视觉 敏感 性 ,24 jps 的 帧 率 ( 逐 行 ) 就 
足够 了 。 如 2.4.1 节 所 述 ,尽管 原始 岁 像 是 在 24 fps 帧 率 下 摄取 的 ,但 在 回放 时 ,在 投射 镜头 
前 放置 一 个 每 帧 旋转 3 次 的 叶片 ,使 得 有 效 回 放 速率 为 72 fps。 这 就 抑制 了 订 能 会 被 一 些 敏 感 
的 观众 感受 到 的 闪烁 获 应 。 许 多 老 的 运动 图 片 址 用 TAR 为 4:3 的 屏幕 放映 的 , 为 了 更 加 懂 剧 
性 的 视觉 效果 , 较 新 的 运动 图 片 通常 是 采用 LAR 高 达 2: 1 放映 的 。 

对 于 计算 机 显示 ,需要 高 得 多 的 认 间 和 时 间 采 样 率 。 例 如 ,SVGA 显示 的 帧 率 为 ?2 fps( 逐 
47) ,空间 分 辩 率 为 1 024 x 720 像素 。 这 是 为 了 适应 很 近 的 观察 上 距离 (通常 为 网 片 高 度 的 一 到 
二 和信) 和 和 显示 资料 的 高 类 成 分 ( 线 图 形 和 文本 )。 


3.3.2 二 维 视频 采样: 逐 行 和 隔行 扫描 


在 1.3 节 描述 了 光 桶 扫描 机 制 ,包括 遂行 和 隔行 扫描 。 沉 要 搞 清 楚 的 是 视频 光 杨 实际 上 
大 在 时 间 和 垂直 方向 上 被 采样 的 一 种 三 维 视频 信号 的 形式 。 上 正如 已 经 所 到 的 ,采用 隔行 扫描 
的 动机 是 , 当 在 给 定时 间 内 能 够 记 承 的 总 行 数 给 定时 ,用 牺牲 垂直 分 辩 率 来 换取 增强 的 时 间 分 
准 率 。 在 本 节 中 ,我 们 通过 分 析 这 两 种 采样 策略 的 频 域 漫天 图 形 来 更 深入 地 了 解 它们 相应 的 
显示 效应 。 

为 了 便于 讨论 ,我 们 忽略 水 平方 向 ,并 旦 把 视频 信 寻 看 做 是 在 由 时 间 和 垂直 方向 生成 的 空 
间 中 的 二 维 信号 。 今 A, 表示 场 间 隔 , iA, 表示 行 间隔。 这 样 , 逐 行 和 隔行 站 描 所 使 用 的 采样 
点 阵 分 别 如 图 3.6(a) 和 (b) 所 示 。 图 中 也 标示 了 生成 每 个 点 阵 的 基 矢 量 。 由 这 些 基 矢 量 , 可 
以 导出 原始 点 阵 和 反 吝 点 阵 的 如 下 生成 年 阵 : 
2A, 9] wu) - ‘iow 0 ] 
0 al 0 A, 
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i 2A, A, 
mav] = | 0 a 

FEY 41 U, A[U, 
面 第 一 象限 内 高原 点 最 近 的 3 个 点 (实心 
中 心 , 也 是 可 觉察 失 真 的 主要 原因 。 

注意 , 画 点 阵 时 ,我 们 改变 了 空间 
= LA 与 等 于 场 训 的 时 间 频 率 /.， 








,可 以 画 出 
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和 时 间 维 的 上 


].tu.t = [ 


3.6(c) Al (d) PADRE. FCP RA TR TRF 
)。 这 几 点 是 最 接近 原始 信号 频谱 的 混 全 分 景 的 


0 
VA, 


1/24, 
- 1/24, 





CBA ,使 得 等 了 








(3.3.2) 


He RAE RIE f, 
US, 具有 相同 的 长 度 。 类 似 地 ,空间 间隔 A, 和 时 间 章 隔 


A, 也 具有 相同 的 长 度 。 理 想 情 况 下 ,通过 给 空间 和 时 问 截止 频率 分 配 相 同 的 长 度 ,我 们 愿意 








将 基于 视觉 敏感 度 的 时 间 和 空间 频率 等 同 对 待 。 





为 空间 和 时 间 采 样 频率 通常 是 基于 





截止 频率 选取 的 ,使 不 同方 向 上 的 采样 频率 相等 一般 来 说 是 合适 的 - 
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@ 
E36 逐 行 和 隔行 扫描 的 比较 ; (ETER RRE: (b) REPEAT 
摘 的 反 商 阵 ;(d) 隔 行 扫描 的 反 商 阵 ,{c) 和 和 (d) 中 的 实心 贺 略 表示 最 近 的 混 琶 分 其 
比较 这 丙种 扫描 的 原始 和 反 商 点 阵 , 我 们 得 到 以 下 几 个 观点 ， 


1. 它 们 具有 相同 的 采样 密度 , 即 dA.) = d(A,) = 1/2A,A, 。 
2. 沿 垂直 频率 轴 , 它 们 在 A, 具有 相同 的 最 近 的 混 愉 。 这 意味 着 在 没有 运动 时 ,两 种 采 
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比 逐 行 扫描 具有 一 些 优势 。 
总 采样 率 的 逐 行 扫描 (我 们 将 在 4.2.1 节 中 考虑 去 隔行 














样 点 阵 有 相同 的 分 辩 率 。 这 是 
两 个 分 离 的 场 中 采样 的 行 看 起 来 好 像 在 同时 
行 扫 揪 的 垂直 分 辨 率 要 低 于 逐 行 扫描 的 垂直 分 辨 率 。 
3. 沿 时 间 频 率 轴 它们 具有 不 同 的 最 近 的 混 释 。 
处 ,而 隔行 扫 

















的 办 烁 效应 不 大 可 能 会 发 生 。 
4. 它 们 具有 不 同 
的 频率 分 量子 
于 阿 行 扫描 出 现在 (1/2A, , 1/2A, )。 
眉 行 在 昭 行 扫描 中 更 容易 觉察 
5. 对 于 一 个 具有 各 向 同性 频谱 支撑 的 信和 号 ,隔行 扫 
的 无 混 生 信号 频谱 的 最 大 半径 是 1/4A, ,而 隔行 
时 重要 的 是 要 记 住 ,这 是 基于 我 们 把 空间 和 时 间 
注意 前 面 是 对 具有 相同 的 总 采样 率 的 逐 行 和 隔行 扫描 的 比较 
为 了 进一步 提高 质量 ,隔行 : 











措 的 混合 混 








为 隔行 扫 
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描 更 有 效 。 
扫描 增加 到 
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问题 )。 
由 的 有 趣 的 








Beuker 和 Shah 给 出 了 在 恒定 线性 运动 下 一 个 隔行 


析 ,他 们 考虑 了 去 隔行 技术 和 其 他 速率 转换 问题 。 
3.3.3 光栅 扫描 采样 : 回 到 BT.601 格式 
如 洒 章 开始 所 讲 的 ,获得 完全 数字 视频 信号 的 一 种 方法 是 采样 光栅 打 描 。 我 们 记得 , 光 顶 


是 由 相继 帧 (或 场 ,对 于 隔行 光栅 ) 内 的 相继 水 了 
采样 
的 水 平 采样 间距 要 与 扫描 线 间 的 垂直 间距 
次 ,所 产生 的 三 维 空 间 样 点 应 该 符 


色 视 频 光 机 ,一 个 直接 的 办 法 是 对 





间隔 直接 决定 了 水 平 采样 间 

















使 用 了 这 些 准则 。 按 照 公 式 (1.5.2) 选 择 采样 间隔 ,在 相继 水 和 
相等 。 





对 于 乏 行 打 描 ,第 一 个 混 玖 出 现在 1/24, 
描 出 现在 1/0, 处 。 我 们 记得 ,大 于 最 近 的 时 间 混 释 一 半 的 时 
将 会 产生 闪烁 效应 。 可 以 看 出 , 当 物 体 具 有 平坦 的 或 缓慢 变化 的 垂直 图 案 时 ,隔行 扫描 


为 尽管 每 场 只 有 一 半数 目的 行 ,当成 像 景 物 静 止 时 ,在 
被 采样 一 样 。 然 而 , 当 景物 存在 运动 时 ， 


隔 








间 频 率 成 分 





的 混合 混 稚 。 混 合 混 乞 定义 为 最 近 的 篇 离 轴 的 混 盈 分量。 接近 混合 混 盈 
起 行 间 内 烁 和 息 行 。 对 于 逐 行 扫描 ,混合 混 稚 出 现在 (1/2A, ,1/A,), 而 对 


BERRA, TAM 


这 就 是 所 谓 的 隔行 效应 。 


特别 是 , 逐 行 扫描 所 能 表示 
1/2Y2A,。 在 说 明 这 个 结果 


频率 等 同 看 待 的 。 


。 在 这 种 情况 下 ,隔行 扫描 


扫描 可 以 被 去 隔行 ,以 产生 一 个 两 倍 于 


频谱 分 析 [1]。 基 于 这 个 分 


扫描 行 构成 的 一 维 信号 。 因 此 , 沼 着 扫描 线 的 
隔 。 为 确定 采样 间隔 ,有 几 个 因素 必须 考虑 到 。 首 先 ,所 产生 
还 配 , 以 便 使 水 平和 垂直 方向 的 采样 频率 相近 。 
合 一 个 期 望 的 采样 点 阵 。 例 如 , 若 要 使 每 帧 或 场 的 样 点 形成 
AEEA , 则 采样 间隔 应 该 能 整除 行 间隔 。 在 1.5.2 节 所 述 的 BT.601 数字 视频 格式 的 设 
计 中 
准 , 并 且 水 平和 垂直 及 样 间距 近 他 














扫描 行 上 的 采样 点 垂直 大 


前 面 的 讨论 是 假设 视频 光栅 只 有 一 个 亮度 分 量 。 对 于 具有 一 个 亮度 和 两 个 色 度 分 最 的 彩 

















所 有 的 分 量 使 








相同 的 采样 频率 。 这 将 导致 HT.601 4:4:4 





格式 ,如 前 面 图 1.8(a) 所 示 。 然 而 ,众所周知 , HVS 对 于 党 度 信息 
的 做 法 是 在 比 亮度 低 的 分 辩 率 下 采样 色 度 分 量 。 在 理想 情况 下 ,在 所 有 三 维 上 的 采样 频率 应 


该 同等 降低 。 然 而 ,因为 光栅 是 水 了 





率 ; 而 垂直 和 时 间 采 样 率 不 受 影响 。 例 如 ,如 果 色 度 分 量 的 采样 率 
的 一 六 ,时 间 和 垂直 采样 间隔 对 于 色 度 和 亮度 分 量 一 样 ,只 是 色 度 分 量 的 水 平 采样 间隔 是 亮度 
分 量 水 平 采 样 间隔 的 二 倍 。 实 际 上 ,这 是 图 1.8(b) 所 示 的 用 于 BT.601 4:2:2 格式 的 彩色 亚 采 
样 格式 。 如 果 我 们 沿 荐 扫描 光栅 对 色 度 分 量 进行 4 倍 的 向 下 采样 ,我 们 将 得 到 图 1.g(e) 所 示 








比 色 度 更 敏感 。 因 此 ,聪明 


扫描 行 的 堆积 ,所 以 降低 光栅 采样 频率 只 降低 了 水 平 采样 
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的 BT.6014:1:1 格 式 。 给 定 一 个 4:2:2 信和 号 ,我 们 可 以 对 垂直 维 进一步 进行 两 倍 的 向 下 采样 ， 
这 将 导 斤 图 1.8(d) 所 示 的 BT.601 4:2:0 格式 。 放 意 不 能 由 光栅 信和 续 的 均匀 采样 直接 获得 
4:2:0 格 式 .BT.601 4:2:2 和 4:2:0 信号 亲 的 转换 将 在 第 4 章 中 考虑 (习题 4.6~4.7)。 

4:1:1 和 4:2:0 格 式 具 有 相同 的 总 采样 率 ( 样 点 / 秒 ) ,但 4:2:0 格式 吓 以 更 精确 地 表示 视 
频 信 号 ,内 为 它 以 相同 的 (亮度 分 其 一 于 ) 分 辨 率 捕 获 色 度 分 量 中 的 水 半 和 乖 直 细节 。 男 一 方 
面 ,对 于 4:1:1 格式 .用 与 亮度 分 基 相 同 的 分 辨认 表示 垂青 细 竹 ,而 只 用 144 FE Ee 
ARE ATS, 

AICHE RHE SAU 7 A, APO ER EG 
分 离 出 各 个 彩色 分 最 ET ATT OC REL. 
3.3.4 三 维 视频 采样 

在 于 一 节 讨论 的 采样 方案 中 ,水 平 样 点 在 所 有 场 中 垂直 对 准 。 这 样 的 采样 方案 不 能 做 到 
最 优化 。 我 们 也 可 以 在 ay 半 面 上 以 交错 的 或 更 复 条 的 图 案 采 样 。 更 … 般 地 讲 ,我 们 可 以 F 

个 期 望 的 点 阵 直接 在 二 维 空间 采样 。 制 造 一 个 能 够 实现 复杂 的 一 维 采 样 结构 的 摄像 机 是 很 

因 难 和 的、 然而, 我们 可 以 首先 用 -个 密集 但 结构 简单 的 点 阵 获得 样 点 ,然后 把 它 向 下 转变 为 其 
户 的 点 阵 ”本 闻 将 对 已 用 于 视频 采样 的 几 种 点 隆 的 效率 进行 比较 ,这 里 引用 的 材料 来 自 [4]。 
为 使 于 表述 ,我 们 将 假设 频率 辅 大 ,/ ,是 分 别 用 信号 的 最 大 频 这 MA ,LA 9 WF ec ERR 
Áo IKE RRITA oy HIE B A ae Loudon HE Bi TEP AT PR AE AD 
TEMER. AT PPR fk Ba PPR ESS, FR EA AB SE 
ARE PEEN 1 的 球 。 

首先 ,让 我 们 考虑 帧 问 隔 为 A , 行 间隔 为 A, 的 逐 行 二 | 描 光 要 的 采样 。 如 果 样 点 以 水 平 间 
二 牌 直 对 准 ,那么 等 仇 的 二 维 采样 点 阵 是 简单 的 立方 体 或 正 父 晶体 (ORT) ,如 图 3.7(a) 所 示 。 
SER Jy CORSA TUR A = A, = A, = 】 ,采样 密度 d(ORT) = 8。 

然后 ,让 我 们 考虑 间隔 为 A,/2, 每 场 行 间隔 为 24, 的 隔行 扫描 光栅 的 采样 。 如 昌 不 同 场 的 
样 点 以 水 平 间隔 A, 对 准 ,那么 等 效 的 三 维 采样 点 阵 如 图 3.7(b) 所 示 , 称 为 ALI。 可 以 证 明 ,为 


FSET PRINTED, =A = 支 ,A = 方 .采样 条 度 为 d(ALD) = 4/3, 这 比 ORT APREA 


为 了 提 商 采样 效 洛 ,我 们 可 以 使 倘 行 与 奇 行 的 样 点 错开 - 半 , 如 图 3.7(c) 所 示 。 其 结果 


称 为 体 心 下 交 晶体 (BCO)。 可 以 证 明 , 为 了 游 免 混合 ,所 需 的 采样 间隔 为 A, = A, = 
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5 REREH 42, BPE ALL RRES. 


F 
BCO REA FEA, BR Tad ESE A E (FCO), WME 3.7(d) 所 示 。 对 于 这 种 采样 结 
构 ,每 et AAT Peli PE EAS BTS PEAR RS BCO 一 
FE SHATA BARRERAE A TET E o 
IAE RAR A RE E AAO SET RRES TEE 3.1 中 。 














HIE 视频 采样 





R31 具有 单位 球 频谱 的 信号 的 无 混 生 采样 点 阵 
































点 阵 å, Ay A 密度 
ORT 1/2 1⁄2 12 8 
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td) 面 心 正 交 晶体 点 阵 (TCO) 
图 3.7 儿 种 三 维 视频 采样 点 阵 和 它们 的 反 商 阵 。 在 图 中 的 每 一 部 分 , 左 财 是 采样 点 降 , 右 图 


是 反 商 点 阵 。 矩 阵 [V] 代 表 该 采样 点 隆 的 生成 矩阵 。 空 心 和 实心 圆圈 代表 两 个 不 
同 的 时 间 ( 左 图 ) 或 时 间 频 率 ( 右 图 ) 平 面 内 的 阵 点 ,其间 的 虑 离 分 别 用 左右 两 边 的 
季 头 表示 。 例 如 ,对 于 (hb), 左 图 中 空心 图 圈 代 表 在 ! = 0 时 的 采样 ,实心 圆 图 代表 在 
t= 12 时 的 采样 . 右 图 中 空心 网 图 代表 在 时 间 频 率 大 时 的 泥 垩 分量 ,实心 回 几 代 表 在 
f= JI/ 时 的 混 梧 分 量 。 对 于 (a), 实 心 图 转正 好 落 在 空心 男 圈 的 后 面 ,因此 没有 表示 出 来 
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3.3.5 空间 和 时 间 混 页 


在 2.3,2 节 描述 了 时 间 频 率 ,空间 频率 与 进行 线性 运动 的 物体 的 速度 之 间 的 关系 . 一般 
地 涪 , 如 果 物 体 的 速度 较 高 (除非 它 的 运动 方向 与 空间 频率 的 方向 正 交 ) ,那么 它 的 时 间 频 率 就 
较 高 。 图 3.8 说 明 时 间 泥 爱 的 效果 ,还 是 考虑 线性 运动 的 物体 . 
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图 3.8 ESKER REE 


例 3.4 考 虚 一 个 具有 纯 季 直 正弦 彩色 图 案 、 水 平 频 率 为 ] 周期 /厘米 的 景物 ( 见 图 2.1(a))。 
假设 这 个 图 案 以 w=3 厘米 /未 的 违 度 水 平 运动 。 如 果 我 们 用 -= 所，=3 祥 点 /厘米 ,大 ， 
=3 fps 的 速率 对 它 进 行 采 样 ,那么 表 观 运动 和 正 蔷 频率 是 多 少 ? 

因为 信号 的 空间 频率 为 1 周期 /厘米 ,并 且 以 3 厘米 / 秒 的 速度 运动 ,在 时 间 采 样 率 为 
3 fps 时 , 它 超前 3 cps 或 1] 周期 / 帧 。 因此 在 两 个 相继 的 帧 所 捕获 的 帧 是 相同 的 ,如 图 
3.8(a) 所 示 。 因 为 空间 采样 率 足 够 高 (A.。> 2K.。) ,所 以 没有 空间 混 登 。 因 此 , 采 祥 信号 
将 表现 为 一 个 静 赤 的 正弦 ,具有 与 连续 信号 一 样 的 图 案 。 

现在 用 点 阵 采 禅定 理解 释 这 个 现象 。 显然 这 个 信号 在 (FAo)= 1,0),( 一 1,0)i 
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处 有 一 对 空间 频率 分 草 。 基 于 公式 (2.3.4) ,由 运动 产生 的 时 间 频 率 为 fo = -uot + 
fot) = | -343|1(cps)。 因 此 ,信号 频谱 在 (Ao,FosFo) = 1(1,0, -3)，( -10,3)} 处 有 
一 对 脉冲 ,如 图 3.8(b) 所 示 ( 在 这 个 图 中 只 画 了 在 请 =0 时 的 大 -天 平面 ,因为 信号 在 所 
有 其 他 平面 上 为 零 )。 采 样 后 ,信和 号 频谱 将 在 所 有 采样 频率 的 整数 倍 处 复制 ,如 图 所 示 。 
我 们 可 以 看 到 ,因为 请 ,<27o, 一 对 泥 得 分 量 落 在 到 商 阵 的 沃 罗 纳 晶 格 内 ,在 这 种 情况 下 
CAM sf (BF af AAR ER, KREBS DES ERA RMS o 
如 果 用 理 起 的 低 通 滤波 器 由 采样 信和 号 恢复 原始 信号 ,那么 恢复 的 信号 将 是 空间 频率 为 (1， 
0) ,时 间 频 率 为 0 的 纯正 弦 。 它 相当 于 一 个 水 平 频率 为 1 MIBK LE AER, R 
就 是 将 被 眼睛 感知 的 信号 ,眼睛 的 作用 类 似 于 一 个 低 通 滤波 器 。 
为 了 在 采 祥 信号 中 保留 真实 的 运动 ,时 间 采 样 率 应 该 至 少 为 21.。= 6 fp ARNE 
BY SAD MBE A. 
Bil 3.4 (RAST UTD AB BR A I RO Lm E 
时 ,快速 运动 的 物体 会 看 起 来 以 较 低 的 速度 运动 。 取 决 于 运动 物体 的 空间 图 案 ,一 些 线 状 图 形 
的 运动 方向 也 可 能 被 改变 。 


3.4 摄像 机 和 显示 器 的 滤波 作用 


前 面 的 几 节 介绍 了 一 般 无 维 信号 和 视频 信号 的 采样 定理 。 对 于 几 种 典型 的 视频 格式 ,我 
们 已 经 导出 了 所 和 需 要 的 预 渡 波 器 和 重建 滤波 器 。 在 本 节 中 ,我 们 讨论 实际 的 摄像 机 和 显示 器 
是 如 何以 一 种 粗 路 的 方式 完成 这 些 任务 的 ,以 及 HVS 是 如 何 部 分 地 完成 内 播 任务 的 。 


3.4.1 摄像 宙 和 孔径 


考虑 一 个 在 水 平 垂直 和 时 间 方向 上 分 别 以 常规 间隔 A, , A, ,A, 采样 相继 变换 场景 的 报 
像 机 。 这 相当 于 使 用 简单 的 立方 体 点 隆 。 采 样 频率 是 /= VAL, =A, ,f= HA, 。 理 想 
的 预 滤波 器 应 该 是 截止 频率 为 采样 频率 一 半 的 低 通 滤波 器 。 下 面 讨论 在 典型 的 摄像 机 中 实际 
的 预 滤波 器 的 实现 。 

MALE 视频 概 像 机 一 般 是 在 摄取 过 程 中 完成 一 定 程度 的 预 滤波 的 。 首 先 ,在 任何 一 
帧 期 间 读 出 的 亮度 值 不 是 当时 的 感光 值 ; 而 是 一 个 时 间 和 间隔 A, 内 感光 信号 的 平均 值 ,这 个 时 
间 间 隐 称 为 曝光 时 间 。 因 此 , 概 像 机 在 时 域 应 用 了 一 个 脉 串 响应 为 如 下 形式 的 预 滤波 器: 


1 
h(t) = fa € (0,A.) (3.4.1) 
0 ,其 他 

















这 个 滤波 器 的 频率 响应 为 : 


Hf) = expt ~ jfa) CA) 


我 们 可 以 看 到 它 在 = VA, 处 达到 0。 回 忆 1/A, 是 时 间 采 样 率 ,而 理想 的 预 滤波 器 是 截止 频 
率 为 采样 频率 一 半 的 低 通 滤波 器 , AUER A, >A, 时 ,摄像 机 可 以 抑制 采样 率 附近 的 时 间 混 琵 
分 其 。 但 A, 太 大 将 会 使 信号 模糊 。 实 际 上 ,模糊 效应 有 时 比 混 登 更 为 明显 。 因 此 曝光 时 间 


(3.4.2) 
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A 的 选择 必须 在 混 琶 和 模糊 效应 之 间 达 到 一 个 适当 的 折 中 。 

空间 孔径 ”除了 时 间 积 分 作用 以 外 ,摄像 机 还 具有 空间 积分 作用 。 在 任何 一 个 像素 (电子 
管 摄像 机 的 .个 二 | 描 行 上 的 一 个 位 置 或 CCD 摄像 机 的 一 个 传感器 ) 读 出 的 值 不 只 是 那个 点 的 
将 信号 ,而 是 在 围绕 它 的 一 个 小 窗 11 内 信和 号 的 加权 积分 ,这 一 小 窗口 称 为 孔径 。 孔 径 的 堪 状 和 
加 权 值 构成 了 摄像 机 的 空间 孔径 函数 。 这 个 孔径 丽 数 起 着 空间 预 滤 该 器 的 作用 , 它 的 待 里 吓 
变换 称 为 摄像 机 的 调制 转移 两 数 (MTE)。 对 于 大 多 数 摄像 机 ,空间 孔径 函数 可 以 近似 为 圆 对 
称 高 斯 函数 ; 
































expl- (47 + y?)/20") (3.4.3) 





1 
Presa) = re 
RA Ae 
Hras fk) = xp U2 SOEP = gh (3.4.4) 
o BÈ ASTRA AL ERIKA SEL A PAK AN 
BHI 0.5. BB Ss = Sis = funy ,我 们 看 到 这 需要 p= /12 Vi 5。 关于 几 种 摄像 管 的 
MTF 可 参见 [6]。 


合 孔径 ”摄像 机 总 的 孔径 函数 或 预 滤波 器 是 : 
hrs yt) = hy GA (ey) (3.4.5) 








频率 响应 为 : 

H, fof f) = Hy PL Ho fi) (3.4.6) 
一 个 A. =A, = 1160 R S., = 480( 行 / 像 高 ) 的 摄像 机 的 脉冲 响应 如 图 3.9(a) 所 示 。 它 的 频率 
响应 在 图 3.9(b) 中 给 出 。 只 示 出 了 六 =0 时 的 廊 - 天 平面 。 显 然 , 它 与 理想 的 半 带 低 通 滤 波 
器 相去 其 和 ,理想 情况 下 它 应 该 足 由 18 1 <</.,12,1f1 志 /人 定义 的 方形 遂 带 。 一 方面 , 它 襄 
碱 了 期 望 通 带 ( 沃 罗 纳 晶 格 ) 内 的 频率 分 量 , 因 此 不 必要 地 降低 了 信号 的 分 辩 率 ; 另 一 方面 , 它 
没有 完全 除去 在 期 望 阻 带 内 的 频率 分 量 , 将 导致 采样 信号 的 混 释 。 已 经 发 现 ,观察 者 对 分 辨 素 
的 降低 比 混 赤 效应 更 难于 忍受 。 部 分 原因 是 ,只 当 图 像 含 有 与 最 低 混合 频率 接近 的 高 频 周 其 
浆 案 时 , 混 区 效应 才 引 起 可 觉察 的 视觉 效应 ,而 这 种 情况 在 自然 景物 图 像 中 是 少见 的 。 由 于 这 
个 原因 ,保持 通 带 内 的 信号 比 抑制 通 带 外 的 信和 号 更 为 重要 。 
为 了 实现 更 精确 的 预 滤波 ,可 以 采用 数字 滤波 器 。 这 和 包括 二 个 步骤 ; (1) 以 高 于 期 望 采样 
率 的 速率 采样 信号; (2) 用 数字 滤波 器 抑制 期 望 通 带 外 的 频率 分 划 ;(3) 把 数字 信和 叶 向 下 转换 到 
期 望 的 速率 。 尽 答 具 有 很 尖锐 过 渡 的 滤波 器 在 均 方 误 关 方 面 能 给 出 较 好 的 结果 ,但 这 种 滤波 
器 在 陡峭 边缘 处 会 产生 振 铃 , 称 为 吉 布 斯 (Cibbs) 效 应 。 而 且 , 上 要 实现 尖锐 过 滤 , 需 要 很 高 阶 的 
滤波 器 ,这 在 视频 应 用 中 可 能 是 不 可 行 的 


3.4.2 显示 器 孔径 


如 1.2 节 所 述 ,在 CRT 监视 器 中 ,电子 枪 在 屏幕 上 - - 行 行 发 射电 子 束 ,以 与 视频 信号 的 强 
度 成 比例 的 强度 硫 击 相应 位 置 的 荧光 体 。 为 了 显示 彩色 图 像 ,用 二 个 分 离 的 电子 枪 发 射 三 个 
电子 束 ,以 期 望 的 强度 组 合 诸 击 每 个 位 置 上 的 红 SATIS ARIE. OR AOA AE Le 
定 了 垂直 滤波 :很 细 的 束 将 使 图 像 看 起 来 更 清楚 ,但 如 果 观 察 者 离 屏 幕 太 近 时 ,也 会 看 到 扫描 
线 ; 另 一 方面 , 柱 的 束 将 使 图 像 模糊 。 通 常 ,为 了 使 空间 分 状 率 的 损失 最 小 化 而 使 用 细 的 电子 
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束 ,这 样 显示 器 的 算 直 滤波 作用 很 少 。 时 间 滤 波 是 由 荧光 体 确定 的 。 用 于 彩色 电视 机 的 P22 
BATE 10 ps 到 1 ms 内 衰减 到 峰值 响应 的 10% 以 下 [3,4], 远 小 于 场 时 间 (16.7 ms)。 因 此 
实际 上 没有 进行 时 间 滤 波 。 

幸运 的 是 , HVS 具有 低 通 或 带 通 特性 ,依赖 于 图 像 的 时 间 和 空间 频率 的 制式 (如 2.4 节 所 
述 )。 因 此 ,在 一 定 程度 上 眼睛 完成 了 所 需 的 内 播 任务 。 为 了 改善 性 能 ,我 们 可 以 使 用 数字 滤 
波 器 把 采样 信号 向 上 转换 为 更 高 的 分 辨 率 , 然 后 把 它 送 到 一 个 高 清晰 度 显示 系统 。 
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图 3.9 一 个 典型 摄像 机 的 孔径 函数 :(a) 脉冲 响应 ,(b) 频率 响应 


已 经 发 现 ,在 大 多 数 现行 电视 系统 中 ,摄像 机 和 显示 器 孔径 的 联合 作用 导致 垂直 最 大 分 辩 
率 只 是 理论 极限 ( 行 率 的 一 半 ) 的 0.7。 搁 人 句 话说 ,一 个 行 数 为 N, 的 电视 系统 所 能 恰当 表示 的 
最 大 垂直 频率 大 约 为 0.7W/2。 这 个 因子 称 为 凯 尔 因子 [4], 记 为 KX。 关于 一 个 成 像 系统 的 参 
数 如 何 影响 凯 尔 因子 的 讨论 ,读者 可 以 参阅 参考 文献 [8]。 使 用 数字 滤波 器 进行 预 滤波 和 内 
播 ,有 可 能 使 凯 尔 因子 非常 接近 1。 在 1.4.3 节 中 ,我 们 已 经 看 到 凯 尔 因子 是 如 何 影响 电视 信 
号 带宽 的 。 
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3.5 小 结 


在 任意 点 阵 上 采样 K 维 信和 号 (3.2 节 } 

9 - 个 人 维 连 续 空 间 信号 可 以 在 一 个 点 阵 上 被 采样 。 我 们 可 以 定义 采样 空 间 傅 里 叶 变换 
(SSFT), 它 满足 与 DSFT 相似 的 性 质 。 

e SSFT 是 周期 性 的 , 它 的 混 释 中 心 位 于 采样 点 阵 的 反 商 阵 点 上 。 

如 果 原 始 信号 的 频谱 ( 即 CSFT) 只 在 反 商 阵 的 沃 罗 纳 晶 格 内 是 非 零 的 ,那么 可 以 由 采样 
信号 完全 恢复 原始 信号 。 

采样 点 阵 的 设计 应 该 使 信号 的 支撑 区 落 在 反 商 阵 的 沃 罗 纳 晶 格 之 内 。 否 则 会 产生 混 
玖 。 另 一 种 方法 足 ,我 们 可 以 设计 一 个 预 泪 波 器 来 限制 信号 的 支撑 区 。 

采样 点 阵 的 反 商 阵 的 沃 罗 纳 品格 履 盖 信号 的 支撑 区 越 紧 凌 , 采 样 点 阵 的 效率 就 械 高 。 
例如 ,对 于 一 个 具有 圆 形 频谱 支撑 的 信号 ,矩形 采样 点 阵 的 效率 不 如 六 边 形 点 阵 。 


视频 信号 的 采样 (3.3 节 )} 
。 除 依 球 于 信号 的 频谱 分 量 外 , 视频 信号 所 需 的 空间 和 时 间 采 样 频率 还 依赖 于 视觉 冰 值 
CER HVS 的 空 时 频率 响应 的 截止 频率 ) 。 
9 隐 行 扫描 是 用 秋 直 分 辨 率 换取 增强 的 时 间 分 辨 率 的 一 种 方法 ， 卫 行 扫描 可 以 理解 为 在 
垂直 时 间 平 面 上 使 用 非 矩形 采样 点 阵 。 
更 一 般 地 ,我 们 可 以 在 水 平和 垂直 两 个 方向 上 使 用 隔行 扫描 。 这 对 应 于 三 维 的 非 立 方 
体 点 阵 。 与 立方 体 点 阵 比较 ,在 一 个 给 定 的 总 采样 率 下 ,它们 可 以 减少 混 得 效应 。 





























3.6 习题 


3.1 设 两 个 采样 点 阵 的 基 矢 量 为 : 
FAME Ary, = [3,1], v,[0,2]" 
点 阵 B:w = |272,0]", v,[/2,v2]" 
对 于 每 -个 采样 点 阵 : 
(a) 画 出 基 矢 量 和 采样 点 。 绘 图 说 明 沃 罗 纳 单位 晶 格 。 绘 图 说 明 整 个 空间 域 是 如 
何 由 该 单位 晶 格 的 移 位 副本 铺 成 的 。 确 定 采样 密度 。 
(b) 确定 反 商 点 阵 的 基 矢 量 。 对 于 这 个 点 阵 重复 (a) 。 
(co) 对 于 一 个 具有 圆 形 频谱 的 信号 ( 即 支撑 区 为 一 个 圆 ) , 哪 一 种 点 阵 更 好 ? 构造 一 
个 频谱 ( 画 出 它 的 支撑 区 ), 它 用 某 个 点 阵 将 产生 混 得 ,而 用 其 他 点 阵 则 不 产生 
BE. 
Cd) 对 于 一 个 给 定 的 点 阵 , ER BOR HE — 9, HIS RE eA tO 
集 吗 ? 
3.2 让 明定 理 3.2。 
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3.3 
3.4 
3.5 


3. 


a 


3. 


ua 


3.8 


3.9 


3.10 


3.11 


证 明定 理 3.3。 

证 明定 理 3.5。 

考虑 一 个 在 连续 空间 R* 上 的 脉冲 响应 为 六. (xz 的 线性 移 不 变 系统 。 请 说 明 : 如 果 
在 点 阵 久 上 对 输 和 人 输出 信号 采样 ,采样 的 输 和 人 信和 号 ,Cn) =v (DV) 和 输出 信号 
$.) = 加 ([Vjn) 由 一 个 A 内 的 采样 空间 卷 积 联 系 起 来 ,并 月 滤波 器 正好 是 采样 脉 
IHE R, Ga) = k, (TV) o 
在 3.2.5 节 中 ,我 们 说 明了 在 单位 超 立 方 体 Tx 内 的 DSFT 是 在 (用 变换 [可]f) 使 T 握 
曲 所 得 的 区 城内 的 SST 的 担 曲 图 像 。 当 采样 点 阵 是 六 边 形 时 ,绘图 说 明 这 个 扭曲 
过 程 。 更 特殊 一 些 , 考 虑 一 个 具有 球形 支撑 区 的 信号 。 从 信号 在 六 边 形 点 阵 上 采样 
开始 ,于 出 信号 的 SSFT 和 DSFT。 

考虑 一 个 如 下 定义 的 二 维 信号 ; 


Vr,y) = mee (3.6.1) 






































(a) MEER CSFT, 
(D) 假设 我 们 想 用 由 下 式 给 出 的 六 边 形 点 阵 A REE 
[V] = a3? 0 (3.6.2) 

1/2 
选择 一 个 适当 的 比例 因子 a 全 得 本 效应 不 严重。 例如 ,选取 a 使 在 A’ 的 沃 罗 纳 
晶 格 的 边界 处 出 (上 ,上 ) =0.1。 
(e) 确定 采样 信号 和 它 的 频谱 SSFT。 
(d) 用 MATLAB 画 出 原始 连续 信号 .采样 信号 及 连续 的 和 采样 的 频谱 。 在 SSFT 中 
你 能 看 到 重复 的 峰值 吗 ? 
(e) 确定 并 画 出 采样 信和 号 的 DSFT, 并 与 SSFT 比较 。DSFT 和 SSFT 是 由 公式 
(3.2.16) 表 示 的 扭曲 关系 联系 起 来 的 吗 ? 
对 于 图 3.7 所 示 的 三 维 采 样 点 阵 , 证 明 为 了 避免 混 登 ,如 果 信 号 的 支撑 区 是 单位 球 ， 
那么 采样 间隔 应 按 表 3.1 所 示 来 选取 。 
考虑 一 个 由 下 式 表 述 的 正弦 条 图 案 : 
Y (x,y) = sin(4x(a - y)) 
ha 和 y 方向 的 单位 是 米 Cm)。 假 设 这 个 图 形 以 (wv, , o, rvs 的 速度 运动 。 对 于 以 下 
速度 确定 垂直 ,水 平和 时 间 方向 所 需要 的 采样 率 ; 
(a) (v39) = (1) 
(b) (9, 2,) =(-1,1) 
(e) (o,,,) =(2,1) 
CSET 3.9), EREKE o,o) = (3,0) 运 动 。 如 果 信 和 号 的 采样 率 为 
大 = 大 ,=6 样 点 / 米 ,j.，=6 样 点 / 秒 ,那么 采样 的 条 图 案 的 表 观 空间 频率 、 方 向 和 
速度 是 多 少 ? 
考虑 一 个 做 如 下 恒定 线性 运动 的 一 个 场景 ， 

下 (xy = W(x - vty -ut0) = Volz ~ vty - 9,t) (3.6.3) 
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如 果 用 - -个 隔行 点 阵 采 样 这 个 连续 图 像 以 形成 奇 场 和 俏 场 ,那么 在 时 间 4 倘 场 的 
DSFTSY o (x,y, 2) 89 CSET 有 何 关系 ?” 奇 场 的 DSFT 和 隔行 帧 的 DST 有 何 关系 ? 
(参见 [1])。 

3.12 在 3.4.1 节 中 ,我 们 考虑 了 -个 具有 高 斯 式 状 的 空间 孔径 画 数 的 摄像 机 ， 请 说 明 
它 的 频谱 确实 如 公式 (3.4.4) 所 给 出 的 那样 吗 ? KRETE f= f/f, = fyl 
处 为 0.5 叶 ,8 值 应 该 为 多 少 ? 


w 


-13 对 于 某 些 实际 的 摄像 机 ,它们 的 空间 孔径 函数 可 以 用 一 个 方 盒 函数 较 好 地 模型 化 : 


TT, lai< T/2, 1y1< TR 
0 其 他 


hr (Xsy) = (3.6.4) 





假 没 时 间 脉 冲 响应 与 公式 (3,4,1) 所 给 出 的 柑 启 . 试 求 摄像 机 的 总 孔径 两 数 


hp (x,y, tR CSET. 假设 T= A, = 1/720 RHE, T, =A, 


1/480 像 高 ,A. = A, = 





1/60 秒 ,而 出 其 幅度 响应 。 将 这 个 频谱 与 此 有 高 斯 孔径 ( 见 图 3.9) 的 摄像 机 比较 ， 
哪 一 个 的 预 滤波 效率 更 高 ? 


3.7 文献 目录 


[]} Beuker, R. A., and I. A. Shah. Analysis of interlaced video signals and its applica- 


[2 


18 





tions. IEEE Trans. Image Process. (Sept. 1994), 3(5):501-12. 

Cassels, J. W. S. An Introduction to the Geometry of Numbers. Berlin: Springer- 
Verlag, 1959. 

Diakides, N. A. Phosphor screens. In D. G. Fink, ed., Electronics Engineers’ Hand- 
book. New York: McGraw Hill. 1975, 11-33-39, 

Dubois, E. The sampling and reconstruction of time-varying imagery with appli- 
cation in video systems. IEEE (1985), 73:502_22. 

Dudgeon, D. E., and R. M. Mersereau. Multidimensional Digital Signal Processing. 
Englewood Cliffs, NJ: Prentice Hall, 1984. 

Miller, L. D. A new method of specifying the resolving power of television cam- 
era tubes using the RCA P-300 test chart. Journal of Sociery of Motion Picture 
Television Engineering, (Apr. 1980), 89:249-56. 

Petersen, D. P., and D. Middleton. Sampling and reconstruction of wave-number- 
limited functions in N-dimensional Euclidean spaces. Information Control (1962), 
3:279-323. 

Tonge. G. J. The television scanning process, Journal of Society of Motion Picture 
Television Engineers, (July 1984), 93:657-66. 








第 4 章 视频 采样 率 转换 


在 第 3 章 中 我 们 考虑 了 采样 问题 , 它 是 将 原本 连续 的 视频 信号 转换 为 数字 信号 时 所 必需 
的 步骤 。 在 数字 域 中 ,我 们 经 常 需要 把 数字 视频 信号 从 一 种 格式 ( 指 空间 和 时 疗 的 分 状 率 ) 转 
换 为 男 一 种 褚 式 。 例 如 将 以 PAL 格式 记录 的 视频 转换 为 NTSC 格式 ,从 隔行 扫描 转换 为 逐 行 
扫描, 从 HDYY 格式 的 信号 转换 为 SDTY 格式 ,等 等 。 本 章 将 考虑 采样 率 转换 问题 。4. 1 节 讲 
述 在 不 同 点 阵 上 采样 的 多 维 信 号 转换 的 一 般 理论 。4.2 节 讲 述 三 维 视频 信号 采样 率 转换 问 
题 ,并 其 以 前 面 提 到 的 视频 转换 问题 为 例 进行 讨论。 


4.1 在 不 同 点 阵 上 采样 信号 的 转换 


给 定 - 一 个 定义 于 点 阵 A 上 的 已 采样 信号 ,经 常 需 要 产生 一 个 定义 于 另 一 点 阵 A, 上 的 信 
号 。 这 就 构成 了 采样 率 转换 问题 。 解 决 的 方法 取决 于 这 两 个 点 阵 之 间 的 关系 。 例 如 ,如 果 
ACA ,也 即 ,A 中 的 每 一 个 点 也 在 入 中 ,那么 此 问题 是 上 转换 (或 内 播 ) 问 题 。 我 们 可 以 先 
将 那些 在 A, 中 而 不 在 A, 中 的 点 填 零 ( 即 零 填 充 ) ,然后 可 以 用 一 个 作用 于 A 上 的 内 揪 滤 波 器 
佑 计 这 些 点 的 值 。 在 4.1.1 节 站 将 讨论 这 种 内 插 滤 波 器 所 要 求 的 形式 。 

另 一 方面 , 若 A Ay , 即 为 下 转换 (或 抽取 ) 问 题 。 我 们 可 以 简单 地 从 A 中 取出 那些 也 在 
Aa 中 的 点 。 然 而 ,为 避免 下 采样 信和 对 中 出 现 混 琶 ,我 们 需要 对 信号 进行 闫 滤波 ,以 将 其 带宽 限 
制 到 AS 的 沃 罗 纳 晶 格 。 上 转换 和 下 转换 的 过 程 示 于 图 4.1(a) 和 图 4.1(b)。 

一 般 ,如 果 A, 和 A 互相 不 包含 ,就 需要 找到 另 一 个 既 包 含 A 又 包含 A, 的 点 阵 Mo BR 
们 可 以 首先 将 A 上 采样 到 A, ,然后 再 将 As 下 采样 到 A,。 此 过 程 示 于 图 4.1(c)。 图 中 ,A 中 
的 中 间 滤 波 器 完成 两 个 任务 :首先 ,内 搬出 A, 中 漏 下 的 采样 点 ;其 次 ,把 A 中 信号 的 频谱 限制 
BUA, BRS Maat. 

在 下 面 的 小 节 中 将 分 别 讨论 十 述 情况 。 为 简化 符 导 表示 ,我 们 用 ”; 表示 AS 的 沃 罗 纳 唱 
格 P(AT )。 


4.1.1 上 转换 


如 前 所 述 , 如 果 A CA, ,那么 我 们 可 以 首先 把 A, 中 的 样 点 传递 到 A 中 , 漏 下 的 样 点 用 零 
填充 。 这 个 上 采样 的 过 程 可 以 描述 成 如 下 的 形式 : 
V(r), KE A, 
Fine) =U ah) = i EKAA, 
其 中 xE A, \ A 表示 在 A, 中 但 不 在 A 中 的 点 集 。 现 在 此 信号 定义 于 点 阵 A 上 。 
我 们 需要 用 一 个 定义 于 A 上 的 内 播 滤波 器 来 将 漏 下 的 样 点 填 零 。 为 了 确定 合适 的 内 插 
滤波 器 ,让 我 们 返回 到 定义 于 连续 空间 R* 中 的 原始 连续 信号 (x)。 如 果 在 A, 中 用 生成 矩 


























(4.1.1) 
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BEL V, [HRA 





其 | 








VD) = d(A,) > 由 


mez“ 


meZ“ 


量 之 加 不 会 发 生 重要 。 


需 从 Vz 中 去 掉 业 ,1(1) 的 不 在 原始 频谱 中 





翌 得 到 入 号 ,那么 ,采样 信号 的 SSFT 将 让: 


íf- [U ]m) (4.1.2) 


[1=([W]7)…。 另 一 方面 ,在 A 中 用 生成 年 阵 为 [Vi ] 的 采样 信号 的 SSFT 是 : 
Wi) = dA) >) Y.E- (UJm) 


(4.1.3) 


其 中 ,TU]= (LV). WR A, 满足 公式 (3.2.9) 中 的 无 混 委 条 件 , 那 么 在 AS HAS} 















































上 采样 A 
(填充 0) > Hf) ae 
Wor Wea Waa 
aE APh) Æ ASR) (x fE ASR) 
(a) 
Le LG 
Wy 上 - Pez Wa 
aAA) GÆ AyD GA Ag) 
{b) 
上 采样 滤波 
”| 顺丰 Ha) > FAR 
sa ya Wt Ysa 
(x 在 A 中 ) OZ AGH) {x 在 A 中 } EAI) 


(c) 


图 4.1 采样 率 转换 :(a) 上 转换 A Ch;(b) FE A CA (CERO ERE HE ASR AL + Ag 


由 于 Ay CA; ,根据 定理 3.3,Ar DAS ,从 而 VY 





CVE 。 为 从 于 ,1 (DPRP), RITE 


P 的 那 部 分 。 当 不 能 准确 地 知道 原始 频谱 时 ,最 好 的 


方法 是 假设 它 与 业 ,.,(f) 在 其 沃 罗 纳 晶 格 yi 中 的 部 分 相同 。 因此 ,在 理想 情况 下 ,内 插 滤波 器 


的 频率 响应 为 : 


E ERAR, HL,() 表 水 定义 于 A 上 的 采样 空间 


AAD) = {A 


> Fev 


例 4.1 考虑 如 围 4.2 所 示 的 从 采样 点 阵 A, 到 A, 的 上 转换 ,它们 各 自 的 生成 矩阵 是 : 





2 1 
[V] = | 下 

利用 公式 (3.1.7), 反 商 点 阵 的 生成 给 阵 是 : 
ro -| 12 0 
© loi 


《图 4.2 中 也 示 出 了 反 商 点 阵 和 它们 的 沃 罗 纳 
支 挫 ,在 图 中 也 画 出 了 对 应 于 不 同 采样 图 案 的 


reve yy (4.1.4) 
滤波 器 的 SSFT。 
1 0 

V] = l I (4.1.5) 
1 0 

tal = [5 (4.1.6) 


Hh RL REISS RA D 
ERHI, TREH, REV DVi. Æ 
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起 的 内 播 洪波 器 为 ; 
dA dtd) = 2, fE VE 
= 4.1.7) 
HD = (6, fevs \ vr ( 
在 图 4.2 中 示 于 点 阵 A 上 。 这 个 滤波 器 的 作用 是 消除 A 中 不 应 该 在 AD 内 出 现 的 混 
ADE. 
AY Ay 
A 
oO 2 o 
o 1o 
34 i 3 
o -lo 
o 一 2 o 
Ay 2 
o 口 20 o 
O o lo o 
一 一 仿 一 
-2 一 | l 2 
o o -10 o 
o ie] 20 o 








图 4.2 一 个 从 点 阵 A AA 上 转换 的 例子 。 理 想 的 内 插 滤 波 器 示 于 A ( 见 例 4.1) 


4.1.2 下 转换 








如 果 名 心 , 我 们 可 以 通过 保留 野 在 A, 中 也 在 A, 中 的 样 点 ,至 弈 所 有 其 他 样 点 ,而 容易 

地 得 到 Y ,az。 这 个 下 采样 的 过 程 可 以 描述 为 ， 
Ya) = DG) = WOOL eA (4.1.8) 
这 样 得 到 的 信号 将 与 使 用 相同 的 预 滤波 器 在 A 上 对 原始 连续 信号 采样 所 得 到 的 信号 完全 相 
同 。 假 定 原 始 连 续 信号 的 支撑 区 或 者 在 获取 ,时 预 滤波 后 的 支撑 区 等 于 或 小 于 Yr? ,使 得 在 
:中 不 存在 混 琶 。 孝 么 ,一 般 地 说 ,由 于 V3 BES FEY HABA. WT RRA, 
需要 对 Y ,进行 预 滤波 ,以 去 除 在 V? 中 但 不 在 V3 中 的 频率 分 量 。 因 此 , A, 上 合适 的 预 滤波 





器 用 A, 上 的 SSFT 表示 为 ， 


HAD = H 














dlh al), PEVCA) 


4.1.9 
fE Vry? ( ) 
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例 4.2 考虑 图 4.3 中 给 出 的 下 转 接 的 例子 。 相 应 的 生成 给 阵 是 : 


1 0 2 1 
wh 1 ;TV] = 0 a] (4.1.10) 

10 u2 0 
= + = 4.11 
ul [y yp aan 

理想 的 预 滤波 器 是 
1⁄4, FEVE 

= > 4.1.12 
Ho) l fEVr rvs ‘ ) 


在 图 4.3 PETAEN o RATER ,原始 的 贺 形 频谱 将 会 在 作 PIRRE. BIA 
Al PRAGUE, RAGS ESAS 中 的 部 分 频谱, 因而 不 会 发 生 混 登 。 注 意 ,如 果 在 
区， 中 存在 混 登 ,那么 它 将 保留 在 多 ,as 中。 另 一 方面 ,如 果 原 始 信号 在 ]52 内 有 一 个 支持 
区 ,那么 当 在 A 中 讨 取 原始 采 料 信号 或 对 Y .下 采样 获取 几时 ,就 不 需要 使 用 预 滤 波 。 

















Ay % A AT 
4 4 
o o Io o Hf, 0 F 
Sh 
x, £ k fi 
-1 上 2 1 
o o -io o Hdi b=} 
° ° 7“ ° C) © © 
Ay % h A 
A 4 
o p2? o 
1 
x, 
~2 -1 1 2 
+-! 
a 20 











图 4.3 - 个 从 点 阵 A BIA, PER UOI. BULRREIER EV 中 ( 见 例 4.2) 
4.1.3 任意 点 阵 间 的 转换 
正如 本 节 并 始 时 所 述 ,通常 情况 下 , 当 A, 和 A, 相互 不 为 了 集 时 ,我 们 需要 引入 另 一 个 点 
阵 ,使 得 A ALA, 部 是 A, THE. BR ,为 使 A, 的 采样 密度 最 小 ,我 们 希望 找到 满足 上 述 
准则 的 最 小 点 阵 。 一 旦 A 被 确定 ,那么 可 以 通过 将 前 两 小 节 讨论 的 上 转换 和 下 转换 步骤 级 
联 ,以 实现 从 A, 到 Ay 的 转换 。 在 这 两 步 中 ,内 插 滤 波 器 和 预 滤波 器 分 别 为 ，; 
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d(M dA), PEVE 

= 4.1.13 

BAB lo fevr vi (4.1.13) 
d(A,)id(Ay),  fEVE 

nofi tev \vs (4.1.14) 


是 然 ,这 两 个 都 定义 在 A, 中 的 滤波 器 可 以 合并 为 一 个 滤波 器 ,具有 用 SSFT 表示 的 如 下 频 
率 响应 : 
dA dA), fer NVE), 
noig revs \ Vr NYE) 
上 述 讨论 假设 可 以 用 某 种 方法 确定 A;。 根 据 定理 3.2, 可 以 用 A MA 的 和 来 确定 A, 
BAA tA TV] 只 包含 有 理 数 时 ) 。 回 顾 在 一 维 的 情况 下 ,为 能 够 在 两 个 采样 率 
之 间 转 换 ,一 个 必要 条 件 是 ,两 个 采样 频率 A., 利 人 .:( 或 者 等 效 地 ,两 个 采样 间隔 A 和 A, ) 之 
间 的 比值 必须 是 一 个 有 理 数 ; 即 7 = falfa = AO = plg, 其 中 p 和 g 都 是 整数 。 在 这 种 情况 
下 ,我 们 可 以 先进 行 p 倍 的 上 采样 ,再 进行 9 倍 的 下 采样 ,从 而 实现 ; 倍 的 采样 率 转换 。 显 
然 , 这 只 是 这 里 所 描述 的 更 一 般 的 处 理 步骤 的 一 个 特例 。 特 别 地 ,上 述 两 步 分 别 对 应 于 从 A 
BIA, 的 上 转换 和 从 A 到 A 的 下 转换 。 当 不 满足 定理 3.2 的 条 件 时 ,我 们 可 以 首先 确定 A 
ALA, 的 并 集 , 它 可 能 不 是 一 个 合法 的 点 阵 。 然 后 需要 通过 加 入 附加 点 ,将 此 集合 扩展 成 一 个 
点 阵 , 这 通常 是 通过 观察 进行 的 。 


例 4.3 考虑 在 两 个 具有 如 下 生成 矩阵 的 采样 点 阵 A fe A, 之 间 的 转换 ; 


(4.1.15) 





2 1 2 1 
vife 小 rvl=[。 2 (4.1.16) 
TITER ETE E RERA: 
12 0 12 0 
| i 中 of i, val (4.1.17) 


首先 ,我 们 根据 上 述 生 成 短 阵 给 出 输入 和 输出 采 祥 点 阵 A 以 及 反 商 点 阵 AS ,j= 1,2, 如 
图 4.4 所 示 。 在 这 种 情况 下 ,Al 和 A 并 非 彼此 的 于 集 。 因 此 ,我 们 需要 确定 一 个 点 阵 
A EROS A, 和 A 的 最 小 的 点 阵 。 因 为 [Vi]![V,] 只 含有 理 数 ,所 以 M =A + As。 
一 般 , 通 过 分 析 确 定 As 的 生成 迭 阵 是 困难 芍 。 然而 ,通过 观察 ,我 们 可 以 看 到 在 这 种 情况 
PA 一 定 是 图 4.4 中 画 出 的 方形 点 阵 ， 对 于 这 个 点 阵 , 一 个 明显 的 生成 给 阵 是 单位 奸 
FP: 
1 0 

[V:] = o i} (4.1.18) 

BRR EBB Oh, RA RIELA PEE, PU, ] =([V Vs [V;]; 
7h 5 ARE A? ,i =1,2,3, 我 们 可 以 确定 它们 各 自 的 溪 罗 纳 晶 格 ,如 图 4.4 所 

Ho ARAM PVP Dz ,从 而 DF NV =Vz 。 因 此 ,中 间 渡 波 器 应 该 是 : 
aA) 1 
mp [a= 2° 
0, fe Vs \ Vs 


fE 1 
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ENAA PRTA 的 项 部 。 




















图 4.4 两 个 互 不 包含 的 点 阵 A 和 A 之 间 的 转换 。A, 是 中 间 的 点 
BEAT A 和 入。 理想 的 滤波 器 示 于 A 中 ( 见 倒 4.3) 


4.1.4 滤波 器 的 设计 与 实现 以 及 其 他 内 揪 方 法 


在 前 面 的 讨论 中 ,我 们 只 是 用 SSFT 规定 所 期 望 的 滤波 器 。 在 空间 域 的 等 效 滤波 器 h(x) ， 
xEA 可 以 由 其 逆 SSFT 确定 。 从 理论 上 来 说 ,为 实现 滤波 运算 ,我 们 首先 需要 将 输入 信号 从 
A 向 上 采样 到 Ay ,在 A 中 进行 滤波 ,然后 再 将 其 从 A, 向 下 采样 到 A, UNL 4.1(c) 所 示 。 在 
Ay 中 的 滤波 运算 是 : 
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Wax) = yi) h(a) = DHU aha- y), xEA (4.1.19) 
?EN 


实际 上 ,不 需要 对 A, 中 所 有 的 样 点 计算 滤波 输出 ,因为 只 有 在 A, 中 的 样 点 才 是 所 期 望 的 
输出 。 另 外 ,由 于 .上 采样 的 输入 信号 只 在 A, 中 是 非 零 的 ,所 以 公式 (4.1.19) 中 的 和 仅 包 含 A 
中 的 输入 样 点 。 总 之 ,A 上 的 输出 信号 可 以 由 下 式 直 接 从 A 上 的 输入 获得 ; 

Vin) = Divi) = D aAa- y), EA (4.1.20) 


yeh, 
这 意味 着 , 样 点 xE A, 是 用 样 点 YEA, 的 加 权 平 均 估计 的 ,权重 等 于 h(x-y)。 
在 前 看 的 讨论 中 ,我 们 简单 地 给 出 了 预 主 波 器 和 重建 小 波 器 应 有 的 频率 响应 ,并 没有 考虑 
如 何 设 计 这 些 滤波 器 。 根 据 公式 (4.1.15) 所 指定 的 频率 响应 HO), EV ,我 们 可 以 道 过 道 
SSFT 来 获得 理想 的 滤波 器 A(x) ,x€ As 。 然 面 ,由 于 有 (人 具有 很 圣 峭 的 过 小 带 ,所 以 这 个 滤波 
础 将 具有 无 限 长 冲 激 响 应 。 如 果 我 们 简单 地 截断 滤波 器, 将 会 在 滤波 后 的 信号 中 产生 讨厌 的 
振 铃 现象 。 因 此 ,必须 用 一 个 合适 的 窗 函 数 来 仔细 地 修改 所 适 的 滤波 响应 ,以 便 使 相应 的 滤波 
器 具有 有 限 长 度 冲 激 响应 。 我 们 也 可 以 用 各 种 优化 技术 来 直接 设计 有 限 长 脉冲 吃 应 滤波 器 ， 
使 它们 的 频率 响应 尽 可 能 接近 期 望 的 响应 。 滤 波 器 设计 技术 超出 了 本 书 的 范围 ,有 兴趣 的 读 
者 可 以 参阅 参考 文献 [4] ,其 中 对 多 维 滤波 器 的 设计 有 很 好 的 介绍 。 绝 大 多 数 数字 滤波 器 设计 
技术 是 基于 用 离散 频率 表示 频率 响应 的 假设 。 这 里 ,为 了 解决 这 个 问题 ,必须 把 用 连续 频率 表 
示 的 所 和 需 频率 响应 转换 为 用 离散 频率 表示 ,如 公式 (3.2.16) 所 规定 。 根 据 转 换 后 的 频率 响应 ， 
我 们 可 以 采用 数字 滤波 器 设计 技术 得 到 所 期 望 的 离散 空间 的 滤波 器 。 我 们 可 以 在 抽象 的 离散 
空间 或 直接 在 采样 空间 实现 卷 积 运算 。 
在 下 文中 将 会 看 到 ,对 于 视 频 信号 的 采样 和 采样 率 转换 ,为 降低 计算 的 复杂 性 ,经 常 使 用 
的 是 与 理想 频率 响应 相距 其 远 的 简单 滤波 器 。 在 4.2 节 描述 了 一 些 用 于 重要 转换 问题 的 滤波 
器 示例 。 
到 只 前 为 止 , 我 们 已 经 基于 频 域 考虑 导出 了 所 种 的 内 播 滤波 器 。 我 们 也 可 以 基于 采样 域 
需求 提出 内 捅 方法 。 对 于 由 采样 点 进行 连续 信号 内 播 ,问题 在 于 通过 给 定 的 采样 值 构造 一 个 
连续 表面 。 对 于 上 转换 来 说 ,问题 在 于 由 周围 的 已 知 样 点 估计 出 丢失 的 样 点 值 。 一 般 方法 是 
在 每 一 个 小 的 区 域 用 一 个 有 限 阶 多 项 式 函数 来 远近 这 个 连续 信和 号 ,并 且 根 据 该 区 域 给 定 的 采 
样 值 用 最 小 均 方 匹配 处 理 步 双 来 确定 多 项 式 系数 。 一 旦 这 个 多 项 式 被 确定 ,我 们 既 可 以 重建 
整个 连续 表面 ,也 可 以 得 到 丢失 的 采样 点 。 为 了 保持 在 相 令 区域 所 得 到 的 表面 的 连续 性 ,可 以 
使 用 伴 条 函数 , 它 是 一 类 特殊 的 分 段 多 项 式 (最 流行 的 是 为 实现 二 维 信号 内 插 所 描述 的 三 次 样 
条 方法 [61)。 


4.2 视频 信号 的 采样 率 转换 


在 视频 系统 中 经 常 需要 采样 率 转换 。 例 如 ,在 一 个 NISC 系统 中 显示 PAL 信号 ,需要 将 一 
个 采样 率 为 ,=50 场 / 秒 , f, = 625 行 /他 像 高 并 的 隔行 信号 转换 成 一 个 5, = 60 BDL, = 
525 行 /图 像 高 度 的 隔行 信号 。 为 了 将 胶片 上 的 电影 转换 为 NTSC TV 广播 和 显示 ,需要 从 f = 
24 WED fps) E S = 0 场 / 秒 的 转换 。 另 一 个 有 趣 的 问题 是 将 隔行 扫 拱 转换 成 逐 行 扫 描 , 称 
为 去 隔行 , 它 是 在 采用 次 行 提 描 的 计算 机 屏幕 上 显示 专 为 电视 制作 的 节目 时 所 需要 的 。 一 些 
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先进 的 电视 系统 已 经 具有 了 内 置 的 去 隔行 功能 ,使 得 隔行 的 节 愉 能 够 以 逐 行 的 方式 攻 示 ,从 而 


提高 视觉 质量 。 


如 4.1 节 中 所 述 ,解决 采样 率 转换 问题 的 一 般 步骤 如 下 ; 1) 确定 输入 和 输出 信号 的 等 效 
采样 点 阵 ,以 及 -一 个 覆盖 输入 和 输出 信和 导 所 有 采样 点 的 中 间 点 阵 ;(2) 基 于 这 二 个 点 阵 的 沃 罗 
纳 品格 ,确定 所 需 的 滤波 器 频率 响应 ;(3) 设 计 一 个 近似 于 所 需 响应 的 滤波 器 。 实 际 上 ,由 于 视 














频 信 号 上 共有 很 高 的 码 率 ， 


我 们 不 能 使 用 其 有 很 多 系数 的 滤波 只 ,特别 是 在 时 间 方 向 上 。 为 了 降 





低 计算 复杂 度 , 我 们 也 可 以 将 空 时 转换 问题 分 解 成 空间 转换 后 跟 时 间 转 换 , 或 者 反之 。 


下 面 ,我 们 更 详细 地 





措 述 去 隔行 以 及 在 PAL 与 NTSC 之 间 转 换 的 解决 方法 。 我 们 只 考虑 




















在 垂直 和 时 间 方 向 上 的 运算 ,因为 水 平方 向 的 采样 率 转换 可 以 用 传统 的 一 维 技 术 分 别 完成 。 
Haskell, Puri 和 Netravali [5] 对 各 种 视频 转换 问题 和 它们 的 实际 解决 方法 进行 了 广泛 的 讨论 ,这 
些 问 题 中 的 一 部 分 在 本 章 末 尾 的 习题 部 分 予以 考虑 。 





4.2.1 去 隔行 


去 隔行 的 问题 是 在 每 一 场 中 填补 被 跳 过 的 那些 行 ,如 图 4.5 所 示 。 考 虑 隔行 的 NTSC 信 
T ERDEK fı = 60 场 / 秒 . 行 率 为 人, = 525 行 /图 像 高 度 .采样 间隔 是 A, = 1/60 秒 , Ay = 

















1525 图 像 高 度 , 相 应 的 采 
方形 的 点 阵 ,如 图 4.6(b) 





样 点 阵 和 它 的 反 商 如 图 4.6(a) 所 示 。 去 隔行 信和 号 的 采样 点 阵 是 一 个 
所 示 。 与 前 面 一 样 , 我 们 对 垂直 和 时 间 轴 进行 了 定 标 ,以 使 A, A A, 








用 同样 的 长 度 表示 。 类 似 地 ,上 ,和 大 ,在 频 域 也 被 赋予 相同 的 长 度 。 





Bae Sart) 
(项 声 ) BSB) 


O 顶 场 的 样 点 

O 底 场 的 样 点 

O 需要 内 播 
的 样 点 








图 4.5 去 隔行 过 程 ; 场 :和 场 :+1 形成- -个 隔行 的 帧 
显然 ,这 两 个 点 阵 及 其 反 商 点 阵 的 生成 矩阵 是 ; 


wif NE ro-[ i vs] (4.2.1) 
=| abo [S a] (4.2.2) 


在 这 种 情况 中 , A, DA, ,这 个 问题 是 一 个 上 转换 问题 ,理想 的 内 播 滤波 器 是 : 
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(4.2.3) 


图 4.6 去 隔行 前 后 的 采样 点 阵 和 它们 的 反 商 点 阵 。 容 心 圆 图 代表 原始 样 点 ,实心 加 图 代 表 要 内 搬 


的 样 点 。(a) 相 应 于 隔行 扫描 的 采样 点 阵 及 其 反 商 点 | 





i (b) 去 隔行 后 的 采样 点 阵 及 其 反 商 点 阵 


在 图 4.6 中 也 示 出 了 沃 罗 纳 唱 格 Pr” 和 V2? 。 


此 滤波 器 频率 响应 的 幅度 示 于 图 4.7(a)。 我 


们 可 以 看 到 这 是 一 个 具有 姜 形 通 带 的 低 通 滤波 内 。 注 意 ,这 个 滤波 器 是 不 可 分 离 的 (也 就 是 
说 ,不 能 被 分 解 成 时 间 滤波 器 和 垂直 滤波 器 的 乘积 ) ,因此 必须 使 用 二 维 滤波 器 设计 技术 。 为 











了 简化 设计 问题 ,我 们 可 以 首先 设计 一 个 具有 方形 通 
滤波 器 进行 旋转 。 





的 可 分 离 的 低 通 滤波 器 ,然后 对 所 得 的 


实际 上 ,为 实现 去 隔行 已 经 提出 六 很 多 较 简单 的 滤波 器 。 一 种 选择 是 用 同一 场 中 的 垂直 
内 播 , 这 是 个 一 维 二 倍 上 转换 问题 。 埋 想 的 牌 直 滤波 器 十 一 个 半 带 低 通 滤波 器 [7]; 然 而 ,这 个 
滤波 器 要 求 无 限 长 度 冲 激 响应 ,而 且 是 不 可 实现 的 。 在 实际 中 用 的 荐 短 得 多 的 滤波 器 。 最 简 
单 的 一 种 是 行 平均 , 它 是 用 丢失 行 的 上 一 行 和 下 一 行 的 平均 来 估计 该 丢失 行 。 例 如 ,在 图 4.5 
中 ,对 于 第 4 场 ,DP=(C +EE)/2。As 中 的 等 效 滤波 器 是 : 





l, (7D=(0， 
(y,8) = (A,,0),0-4,,0), 


aCy,t) = 41/2, 
0, ”其 他 











0)， 
(4.2.4) 
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应 用 公式 (3.2.3) ,此 滤波 器 的 频率 响应 ( 即 A 上 h(y,t) 的 SSFT) 是 : 
Hf =14 5 (eM + PS) = 1+ cos(2nA, ) (4.2.5) 


ERO MPS 4.7(b) 所 示 。 我 们 可 以 看 到 , 它 与 图 (a) 所 示 的 所 需 响应 有 显著 的 差 
别 。 由 于 没有 使 用 时 域 滤波 ,所 以 它 沿 时 间 频 率 轴 具 有 全 通 特性 。 沿 垂直 闫 率 轴 , 它 与 理想 半 
带 低 通 滤波 器 相差 很 远 。 

为 了 改进 性 能 ,可 以 使 用 更 长 的 垂直 内 插 滤 波 器 ,其 频率 响应 更 为 接近 理想 的 半 带 低 通 滤 
汲 器 。 例 如 ,在 图 4,5 中 ,对 于 第 ; 场 的 行 ,满意 的 内 插 方 法 是 DD=(4+7C+7E+C)/16。 在 
ARATE (A, 中 的 重 直 轴 ) 上 等 效 的 内 桂 滤 波 咒 为 : 


























h=[1,0,7,16,7,0,1]/16 (4.2.6) 
按照 与 前 面相 同 的 方法 ,很 容易 证 明 这 个 滤波 融 的 频率 响应 是 : 
WS, sh) = 1 + eos(2nd, f) — {cos 6nA, f) (4.2.7) 


如 图 4.7(e) 所 示 。 

前 面 的 两 种 方法 只 使 用 了 垂直 内 插 。 一 种 替代 方法 是 使 用 时 间 内 插 。 注 意 ,对 于 一 场 中 
每 一 丢失 的 行 ,在 同一 帧 的 另 一 场 中 有 一 个 对 应 行 ( 见 图 4.5)。 一 个 简单 的 时 间 内 揪 方 案 是 
复制 此 对 应 行 。 即 D=K, J-C 这 种 方法 称 为 场合 并 ,因为 每 一 个 去 隔行 恩 都 由 合并 两 场 
获得 。 用 于 顶 场 去 隔行 的 等 效 滤波 器 (假设 它 在 底 场 之 前 出 现 ) 是 ， 




















1, Cy.) = (0,0),(0, -A,) 
sta 4.2. 
ERS) l a (4.2.8) 
用 于 底 场 的 滤波 器 是 上 述 滤波 器 的 时 间 反 转 形式 。 公 式 (4.2.8) 中 污 波 器 的 频率 响应 是 ; 
Hf f) = 1 e PA (4.2.9) 


出 于 这 个 滤波 器 在 时 间 上 是 个 对 称 的 ,所 以 它 具 有 复 频 率 响应 。 男 外 ,在 一 帧 中 两 场 的 时 间 内 
播 方向 是 相反 的 (对 于 某 些 特殊 图 案 可 能 会 产生 视觉 人 为 失真 )。 其 幅度 响应 示 于 图 4.7(d)， 
同样 , 它 与 所 需 的 响应 有 很 大 差别 。 由 于 只 在 时 间 方 向 上 进行 了 滤波 ,因此 在 垂直 方向 上 是 全 
通 的 。 

为 了 改进 性 能 ,可 以 使 用 一 种 对 称 的 滤波 器 一 一 例如 ,对 前 一 场 和 后 一 场 中 的 对 应 行 取 平 
均 来 获得 当前 场 中 丢失 的 行 。 例 如 ,对 于 场 t, D=(K+ R)/2。 我 们 称 这 种 方法 为 场 平均 。 等 
效 的 内 插 滤 波 器 为 ; 














1， (y,1)=(0,0) 
hly,t)=41/2, (71) = (0,A,),(0, -A,) (4.2.10) 





0， ”其 他 
或 者 
H(f, f.) = 14 cos(2nA, f) (4.2.11) 


RARER PE A.N) RAR MURDERS Bt — 7 HEAR RA BERIE, RE 
内 揪 任 何 一 场 需要 涉及 到 三 个 场 。 这 需要 两 巅 存储 器 ,与 场合 并 方法 相 比 , 它 在 罕 储 器 和 延 时 
上 要 求 有 不 容 忽视 的 增加 。 

为 了 在 时 间 和 空间 人 为 失真 方面 达到 折 中 , 较 好 的 方法 是 婚 用 垂直 内 捕 也 用 时 间 内 插 。 
例如 ,通过 对 同一 场 中 上 一 个 和 下 一 个 像素 以 及 前 一 场 和 后 -- 场 中 对 应 的 像素 取 平 均 , 我 们 可 
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以 内 搬出 一 个 丢失 的 像素 。 在 图 4.5 中 ,这 相当 于 D=(C+ E+ K+ 也 )/4。 这 种 方法 被 称 为 
行 和 场 平均 。 在 去 中 行 点 阵 上 的 等 效 滤 波 器 为 : 
1, Cy.) = (0,0) 


h(y,t)= sla, Cy.) =(A,,0),(-A,,0),(0,4,),(0, -A,) (4.2.12) 
0, ”其 他 
其 频率 响应 为 
Hf sf) = 1+ 让 (eo(2nf, A, ) + cos 2rd. )) (4.2.13) 





如 图 4.7 DARA. RATT VA BIE HEIA BY De AE ER a A a, FERD Y 
均 , 这 种 方法 需要 存储 两 帧 。 在 习题 4.1 中 讨论 了 只 和 需 存储 一 帧 的 方法 。 

当成 像 的 景物 在 相 邻 两 场 之 阅 静 止 时 ,在 奇数 场 中 丢失 的 偶数 行 应 访 与 前 一 个 和 后 一 个 
偶数 场 中 对 应 的 个 数 行 完全 一 样 。 因 此 时 间 内 捅 将 产生 精确 的 估计 。 另 一 方面 , 当 景物 中 存 
在 运动 时 , 相 邻 场 中 对 应 行 可 能 不 对 应 同一 个 物体 位 置 ,时 间 内 插 将 会 产生 不 可 接受 的 人 为 失 
真 。 想 像 一 个 水 平移 动 的 垂直 格 栅 图案 ,在 两 个 相 邻 声 摄 取 的 格 棚 图 案 移动 半 个 格 栅 间隔 。 
场 了 均 将 产生 锅 具 型 的 垂直 格 栅 。 而 同时 使 用 空间 和 时 间 平均 的 方法 将 产生 不 太 严重 的 人 为 
失真 ,但 是 所 得 到 的 视频 对 于 某 些 应 用 来 说 可 能 仍 是 不 可 接受 的 。 为 了 得 到 更 好 的 质量 ,应 该 
使 用 运动 补偿 内 插 , 这 将 在 4.2.3 节 中 讨论 。 


图 4.7 RS 
(公式 4-2.5)iKo) 四 点 答 直 内 捅 (公式 4.2,7);(d) 场合 并 (公式 4.2.9);(e) WE 
均 ( 公 式 4.2.11); (D 行 - 场 平均 (公式 4.2.13)。 在 每 一 幅 图 中 ,垂直 轴 代 
SERRE ATHMRAM ABR, 频率 范围 县 1f;1<f.,/2, 1f1<f,,12 


















































74 视频 处 理 与 通信 





4.2.2 PALS NISC 信号 之 间 的 转换 

在 这 - - 节 中 ,我 们 考虑 从 PAL 到 NTSC 信号 制式 的 转换 (都 是 隔行 扫描 )。 从 NTSC 到 PAL 
的 转换 也 遵循 问 样 的 原理 ,在 习 是 4.4 由 考虑 了 这 个 问题 。 回顾 PAL 信号 的 行 窑 和 声 率 为 
Fra = 625 行 /图 像 高 度 , /= 50 场 / 秒 ;而 NISC 信号 是 fpa = 525 行 /图 像 高 度 , 矿 ; = 60 场 / 秒 。 
PALCA,) 和 NISC(A, ) 制 式 的 采样 点 阵 分 别 画 在 图 4,8(a) 和 (b) 中 ,其 中 A, = 1/60 秒 , A, = 
L525 周 像 高 度 。 根 据 每 个 采样 点 了 上 的 点 ,我 们 可 以 很 容易 地 确定 它们 的 生成 第 阵 , 从 而 确 
EC UTA VP. 根据 [U] 矩 阵 , 寺 以 确定 它 的 及 商 点 阵 和 它 的 活 罗 纳 唱 格 。 所 有 这 些 都 在 









































图 4.8 中 给 出 。 在 给 制 点 阵 时 ,我 们 已 经 对 时 间 种 冬 直 轴 进 行 了 定 标 ,方法 是 使 空间 -时 间 域 
的 A, ALA, 相等 ,使 频 域 的 1A, FA 1A, 相等 。 
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(e) 
图 4.8 在 PAL 到 NTSC 转换 中 涉及 到 的 采样 点 阵 。A Al Ay 是 PAI. 和 和 
NTSC 制式 的 采样 点 阵 , A BEOS A 也 包含 A 的 中 间 点 阵 
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PAL 与 NTSC 21H AUPE EMERY, 因为 这 两 个 点 阵 的 垂直 和 时 间 采 样 率 不 是 互 为 整数 
倍 。 首 先 ,我 们 用 4.1 节 中 描述 的 技术 来 获得 理想 的 解决 方案 。 为 此 日 的 ,我 们 需要 确定 一 个 
KAS A, 也 包含 A HAR Mo EWR, f = 625 Af. = 525 的 最 小 公 倍 数 是 f,， = 
13 125, 而 县 fi, =50 Af, = 60 的 最 小 公 倍 数 为 人 = 300, 可 以 看 出 , 行 率 为 f, 和 帧 率 为 As 
的 矩形 点 阵 是 所 项 的 中 间 点 阵 , 即 为 图 4.8(e) 中 的 点 阵 A,。 从 图 中 可 以 容易 地 看 出 ,在 As 上 
滤波 器 的 所 需 频率 响应 为 





HE Ade Ss =126/125, (Ff) EVE NVZ 
0, (ff EY 人) 
这 个 理想 的 转换 滤波 器 示 于 图 4.8(c) 的 AS 中 (在 图 4.11(a) 也 将 看 到 )。 显 然 , 由 于 V7 Vs 
的 形状 非常 复杂 ,所 以 这 个 滤波 器 不 容易 设计 。 

前 面 提出 的 解决 方案 要 求 直 接 把 信号 从 A, 转换 到 A, ,然后 返回 到 A ,如 图 4.9(a) 所 示 。 
实际 上 ,这 个 问题 通常 是 用 四 个 步 双 解决 的 : (1) 对 PAL 信号 的 每 一 场 进行 去 隔行 ,以 使 产生 
的 每 一 帧 包含 625 行 ,(2) 人 在 每 一 个 去 隔行 的 帧 中 将 行 率 从 625 向 下 转换 到 525 行 , (3) 将 场 率 
从 50 Hz 向 上 转换 到 60 Hz, (4) 最 后 将 每 一 帧 分 用 成 两 个 隔行 的 场 ， 此 顺序 的 实现 步 又 示 于 
图 4.9(b)。 


{4.2.14) 
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图 4.9 从 PAL 转换 到 NTSC 制式 的 两 种 不 同 的 方法 : 
(a) 直接 转换 Cb) UF SCHR 


在 4.2.1 节 中 已 经 讨论 了 一 般 的 去 隔行 问题 ,而且 对 指定 设置 的 解决 方案 示 于 图 
4.10(a)。 对 于 从 625 行 到 525 行 的 垂直 转换 ,理想 情况 下 我 们 应 该 首先 把 行 率 转换 到 13 125 
行 ,在 此 高 分 辨 率 下 对 信号 进行 滤波 ,然后 再 向 下 采样 到 525 行 ,如 图 4.9(b) 所 示 。 理 想 的 解 
决 方案 示 于 图 4.10 (a ~ c)。 对 于 从 50 到 60 fs 的 时 间 转 换 ,我 们 必须 首先 将 帧 率 转换 到 
300 fps, 在 此 高 分 辩 率 下 对 信号 进行 渡 波 ,然后 班 向 下 采样 到 60 fps, 如 图 4.9(b) 所 示 。 理 想 
的 解决 方案 示 于 图 4.10(e ~ e)。 最 后 ,为 了 从 逐 行 巅 中 生成 隔行 信号 ,我们 可 以 简单 地 在 每 一 
怖 中 每 两 行 跳 过 一 行 。 但 是 为 了 避免 混 妆 ,需要 一 个 预 波 波 器 ,该 解决 方案 在 图 4.10(e) 中 给 
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出 。 总 的 等 效 滤波 髓 响应 示 于 图 4.10(f) 。 与 图 4.8(a) 所 示 的 理想 滤波 器 相 比 较 ,这 个 滤波 器 
具有 相同 的 道 带 , 但 是 具有 不 同 的 阻 带 。 对 应 于 H, M H, 级 联 的 频率 响应 示 于 图 4. 11(b)。 
尽管 直接 转换 和 顺序 方法 得 到 相同 的 频率 响应 ,然而 可 以 证 明 顺序 操作 能 够 降低 计算 的 需求 
(见习 题 4.3)。 

注意 ,将 625 行 转换 到 525 行 等 效 于 将 每 25 行 转换 为 21 行 [13]。 如 果 不 使 用 在 13 125 行 
分 辩 率 下 的 理想 内 插 斌 波 器 ,一 种 简 使 的 方法 是 对 于 需要 确定 的 21 行 中 的 每 一 行 ,在 给 定 的 
25 行 中 找到 两 个 最 接近 的 相 邻 行 ,并 卫 用 线性 内 插 确 定 采 样 值 ,如 图 4.12 所 示 。 为 了 确定 与 
这 两 个 已 知行 有 关 的 内 插 系 数 ,我 们 应 该 确定 它们 与 要 内 插 行 的 距离 。 如 果 与 左边 已 知行 的 
距离 为 刀 ,与 右边 已 知行 的 距离 为 d, ,那么 系数 应 该 分 别 是 如 = did, + d,) Bh, = 
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© 
图 4.10 在 从 PAL 到 NISC 转换 的 顺序 实现 中 涉及 的 理想 操作 


和 525 行 格 栅 中 的 间距 。 显 然 ,A,， = 21A,.; A, = 25SA,。。 对 于 在 525 行 格 要 中 的 行 1 ,如 果 
k=l Aaa BEEE BB BRT DL Be 625 行 格 机 中 的 行 复制 过 来 。 当 


=0,21,42,.… .时 会 发 生 这 种 情况 。 对 于 在 两 行 中 间 的 行 来 说 ,在 625 行 格 栅 中 左右 相 邻 行 
的 标号 分 别 为 下 = [4* A,,/A,.j 和 上 +1。 相 应 的 距离 是 d, = lA,- kA, Ald, = (k4+1)4,, 
一 1A,2。 因 此 ,内 揪 系 数 是 有 = h+ 1-1 * 25/21 和 = 1 «25/21 - ko 图 4.12 给 出 了 每 个 内 











插 行 的 左边 已 知行 的 权重 。 
在 Ay 中 等 效 的 垂直 滤波 器 是 ， 
ro) eal 0 (4.2.15) 
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(a) w) (c) 


图 4.11 从 PAL 到 NTSC 转换 滤波 器 的 频率 响应 :(a) 理 想 滤 波 器 ;(b) 相 应 于 图 4.9 中 的 H, FT Hy 
级 联 的 复合 滤波 器 .这 里 肪 和 古都 是 理想 滤波 器 ;(c) 当 用 公式 (4.2.15 和 4.2.16) 实 现行 率 
THER, AWR RER O ) 时 的 复合 滤波 器 -图 (a) 考 虑 了 去 隔行 和 隔行 滤波 器 ,而 
〈b) 和 (ce) 未 考虑 。 在 每 个 图 中 ,垂直 轴 代 表 矿 ,水平 轴 代 表 上 .尽管 让 波 器 的 响应 定义 于 
1 f,l612.5/4,,|fl<2.5/d, ,但 只 画 出 了 由 1 大 1 和 2.5/A, ,ATI<2.5/A, 确定 的 频率 区 
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图 4.12 通过 将 每 25 行 转换 成 21 行 ,并 使 用 两 个 最 接近 的 已 知行 (图 中 上 面 的 
一 行 ) 内 择 册 每 一 个 新 的 行 (图 中 下 面 的 一 行 )[5] ,实现 从 625 行 到 


325 行 的 下 转换 。 对 图 中 下 面 的 每 一 行 ,图 中 给 出 了 与 上 面 一 行 中 左边 相 
令 了 有 关 的 内 插 系数 ,右边 相 邻 行 的 内 插 系数 是 1 减 去 左边 的 系数 


这 是 一 个 用 于 由 625 行内 插 成 13 125 行 或 者 在 每 两 行 间 插入 21 行 的 线性 内 插 滤 波 器 。 但 是 
如 果 只 使 用 公式 (4.2.15) 所 给 出 的 21 个 可 能 的 内 插 系 数 中 的 两 个 , 则 最 多 有 一 行 保留 在 525 
TEP. 

为 了 实现 从 50 Hz 到 60 Hz HIRTT, EREE E MES AA 50 fps 向 上 转换 到 
300 fps, 然 后 再 向 下 采样 到 60 fps 的 方法 ,一 个 简单 得 多 的 方法 是 把 每 5 帧 转换 为 6 帧 ,如 图 
4.13[13] 所 示 。 正 如 图 中 所 示 ,6 个 输出 帧 的 每 一 帧 都 是 用 $ 个 输入 帧 中 的 两 帧 内 插 得 到 ,在 
这 里 与 每 个 输入 帧 有 关 的 内 播 系数 是 与 输出 帧 和 输入 帧 之 间 的 距离 成 反比 的 。 按 照 前 面 描述 
的 行 率 转换 步 又 ,我 们 可 以 确定 出 内 播 系数 , 示 于 图 4.13 中 。 在 300 WR E San Pa 
波 器 是 : 
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h, 


(4.2.16) 


(= 人 -和 到 = kA a lkl =0,1,,5 
_ 其 他 

复合 时 空 滤波 器 的 频率 响应 示 于 图 4.11(e)， 与 示 于 图 4.11(b) 的 所 需 响应 相 比 ,我们 看 到 ， 
线性 内 揪 导 致 模糊 的 过 渡 以 及 阳 带 中 的 许多 振 铃 。 


jpg) 








图 4.13 通过 将 每 WIFE IR 6 BH Ld A RICAN Mb Pde BA, SE AA 50 
场 到 60 场 的 上 转换 .对 于 图 中 下 面 - 行 的 每 -- 帧 ,与 图 中 上 面 一 行 中 左边 相 部 由 
有 关 的 内 桂 系 数 已 在 图 中 给 出 了 ,右边 相 邻 帧 的 内 插 系 数 是 1 减 去 左边 的 内 插 系数 





4.2.3 运动 自 适应 
从 前 面 两 小 节 给 出 


内 插 
的 例子 可 以 看 到 ,在 空间 和 时间 方 身上 使 用 内 插 各 有 其 优点 和 缺点 。 





对 于 静止 的 区 域 ,时 间 内 插 将 产生 精确 的 结果 , 它 确实 提高 了 给 定 帧 的 分 辨 率 。 另 一 方面 ,在 
相继 的 场 或 帧 间 含 有 快速 时 间 变 化 的 区 域 中 ,两 个 分 离 的 场 或 帧 中 具有 相同 空间 标号 的 像素 
可 能 对 应 于 景物 中 不 同 的 目标 区 域 。 在 这 种 情况 下 ,时 间 内 揪 将 产生 镑 误 的 结果 , 订单 独 的 空 





间 内 插 可 能 会 好 一 些 。 


为 了 克服 这 些 问 题 ,可 以 采用 运动 自 适应 内 插 滤 波 器 。 这 种 滤波 器 是 


根据 一 个 运动 检测 器 的 输出 ,对 于 每 一 个 像素 在 垂直 和 时 间 内 插 之 间 进 行 切换 。 若 检测 到 运 


动 , 则 只 使 用 垂直 内 插 ; 





否则 ,只 使 用 时 间 内 插 。 可 以 基于 每 个 像素 周转 一 个 小 邻 域内 的 时 间 


变化 进行 该 像素 的 运动 检测 。 这 个 方法 成 功 的 关键 在 于 运动 检测 过 程 的 精确 性 。 


除 使 用 空间 和 时 间 




















内 插 间 的 硬 切 换 之 外 ,我 们 也 可 以 使 用 二 者 加 权 的 平均 ,可 以 通过 测量 








被 内 插 像 素 周围 一 个 小 邻 域内 时 间 和 空间 的 变化 来 确定 权重 - 令 o? 和 o? 分 别 代表 空间 和 时 





间 变 化 的 大 小 ,区 ,和 wW， 


Few tir, ms 


为 了 进一步 改进 仿 








分 别 代表 用 空间 内 尾 和 时 间 内 插 的 内 插值 。 最 终 的 结果 将 是 ， 
2 2 
“Fag gas 


有 运动 的 区 域 的 性 能 ,对 运动 补偿 内 插 也 已 经 进行 了 研究 。 使 用 这 种 


(4.2.17) 


w, 





方法 时 ,如 果 一 个 像素 被 认为 落 到 了 一 个 运动 区 域 ,那么 它 在 相 邻 场 中 的 对 应 位 置 就 被 确定 
了 ,而 生 用 于 提供 时 间 内 插 的 结果 , 即 公 式 (4.2.17) 中 的 六 ,。 最 具有 挑战 性 的 问题 是 运动 佑 





计 , 即 在 相 邻 的 场 或 帆 








寻找 对 应 的 点 。 我 们 将 在 第 6 章 详 细 讨论 运动 估计 问题 。 为 了 更 深 


人 研究 运动 补偿 采样 率 转换 ,读者 可 以 参阅 参考 文献 [2,3]。 另 一 种 方法 是 根据 空间 频率 的 内 
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容 改变 采样 格 栅 「1]。 


4.3 小 结 


采样 率 转换 的 理想 解决 方案 (4.1 H) 


9 图 4.1 示 出 了 不 同 转 换 问题 理想 的 解决 方案 。 公 式 (4.1.4,4.1.9,4.1,15) 给 出 了 理想 
的 滤波 器 。 上 采样 问题 是 - - 般 转换 问题 在 A, = A, 时 的 特 合 ,下 采样 问题 是 A = A, 时 
的 特例 。 

。 在 - 般 的 速率 转换 问题 中 ,不 必 在 A 中 进行 滤波 运算 。 正 如 公式 (4.1.20) 指 出 的 ,为 
TAR A, 中 的 每 个 采样 值 ,只 需 对 A 中 的 采样 值 进行 滤波 。 


视频 采样 率 转换 的 实际 解决 方案 (4.2 节 } 


通常 视频 速率 转换 门 题 包 括 ; 去 隔行 ;NTSC 与 PAL 之 间 的 转换 ,或 者 等 效 于 BT.601 525/ 
60 与 625/50 之 间 的 转换 ;SPTV 与 HDTY 之 间 的 转换 ;BT.601 4:2:2 与 4:2:0 之 问 的 转 
换 ; 电 影 胶片 与 NISC 或 PAL 之 问 的 转换 。 

© 在 实 不 中 ,一般 用 很 短 的 空间 利 时 间 滤 波 器 ,以 便 降 低 存储 和 计算 的 需求 。 

© 重 竖 的 是 确定 理想 的 解决 方案 ,并 用 它 作为 准则 评价 实际 的 方案 。 

由 运动 自 适 记 运 算 对 十 时 间 方向 上 的 滤波 是 重 间 的 。 其 性 能 取决 于 运动 检测 和 估计 的 
WE. 





4.4 习题 





4.1 在 4.2.1 节 中 ,我 们 讨论 了 儿 种 用 于 去 隔行 的 实际 滤波 器 。 我 们 看 到 , 行 - 场 平均 法 
最 接近 理想 的 滤波 器 ;然而 , 它 需 要 存储 两 帧 。 为 了 减少 帧 存储 量 ,已 经 提出 了 一 种 
单 帧 内 插 滤 波 器 [5] 这 种 方法 在 同 --. 场 中 使 用 垂直 内 播 ,由 同一 帧 的 另外 一 场 进 
行 时 间 内 插 。 在 图 4.5 中 , 场 + 中 的 行 D 用 D={C+8)/2+ K4- (1+ MIB 估计 。 
请 确定 在 去 隔行 点 阵 中 的 等 效 滤波 器 及 其 频率 响应 。 画 出 幅度 响应 (用 MATLAB), 
然后 将 它 与 图 4.7 相 比较 。 这 个 滤波 器 具有 实 频 率 响 应 吗 ” 如 果 不 具有 ,为 什么 ? 
4.2 考虑 下 面 的 去 隔行 方法 : 


Jm = Sf ~ Lam) +m ft m+ DI 


= Atm 3) +f, m+ 3)] 
这 里 (1,m) 代 表 第 + 场 和 第 m 行 的 图 像 值 。 对 于 第 ; 场 ,我 们 假设 行 m 42k k= 
0,1,.… .丢失 。 根 据 所 给 出 的 运算 求 等 效 的 内 插 滤 滤器 并 计算 它 的 频率 响应 。 用 
MATLAB 送出 该 频率 响应 ,并 将 它 与 用 于 去 隔行 的 理想 内 插 滤 滤器 进行 比较 。 
4.3 对 于 如 4.2.2 节 讨论 的 直接 和 顺序 的 PAL 到 NISC 转换 方法 ,比较 它们 的 计算 需求 。 
假设 在 一 个 总 共有 N 个 样 点 的 区 域 中 滤波 需要 进行 aVlog 次 运算 。 比 较 丙 种 方 
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法 的 总 运算 是。 只 需 统计 涉及 到 滤波 的 运算 ;涉及 向 上 和 向 下 转换 的 运算 其 微小 ， 

可 以 忽略 。 

考虑 示 于 图 4.14 的 用 于 NTSC(525 jpf,30 fps, 隔行 ) 到 PAL(625 jpf,25 fps, ITH 

的 两 种 方法 。 

(a) 对 于 每 种 方法 , 夯 志 在 每 个 中 间 步 又 中 的 采样 点 性 太 其 及 商 点 阵 ,并 确定 所 
涉及 的 小波 器 的 所 需 频率 响应 。 为 简化 起 史 , 只 在 时 间 - 重 让 平面 上 进行 。 当 
在 频 尝 域 画 点 降 和 沃 罗 纳 区 域 时 ， ERR s 间 频率 轴 已 被 定 标 , 使 得 
Bis = g RRUGE, REF A= gSA = PATEA 


(b) Wi 3: BUTLER, Sin AERO USA E -个 运算 实现 。 求 总 的 等 效 滤 
波 器 响应 并 把 它 与 直接 方法 的 滤波 器 进行 比较 。 

(e) 采用 与 习题 4.3 同样 的 假设 ,比较 这 两 种 方法 总 的 运算 量 。 

(d) 根据 你 对 (b) 和 (ce) 的 答案 ,评论 一 下 这 两 种 方法 的 优 缺点 。 




















NTSC PAL 
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4.5 


图 4.14 用 于 NISC 到 PAL 制式 转换 的 两 种 不 同方 法 
(a 直接 转换 (b) 顺 序 实现 


考虑 将 一 个 以 24 fps 逐 行 摄取 的 电影 胶片 转换 到 具有 30 fps 隔行 的 NTSC 电视 制式 

的 问题 。 

(a) 画册 对 应 这 两 种 采样 格式 的 点 阵 。 确 定 转换 的 中 间 点 阵 , 以 及 在 这 个 点 阵 上 的 

O) 实际 上 ,通常 使 用 如 图 4.15 所 示 的 简单 的 3:2 下 拉 运 算 。 我 们 可 以 看 到 ,有 - 
半 的 帧 被 转化 成 三 场 ,而 另 一 半 的 帧 被 转化 成 两 场 。 为 了 实现 简单 ,未 使 用 任 
他 滤波 器 。 你 能 求 出 在 (a) 中 确定 的 中 间 点 阵 的 等 效 滤波 器 吗 ? 

Co) 你 能 提出 其 他 比 (b) 更 好 的 简单 方法 吗 ? 

考虑 将 BT.601 4:2:2 信号 转换 成 4:2:0 的 问题 (请 记 住 ,在 这 两 种 格式 中 ,Y 分 量 是 

相同 的 ,而 4:2:0 格式 中 Ch 和 Cr 分 量 所 具有 的 行 数 是 4:2:2 格式 中 的 一 半 )。 由 于 
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图 4.15 用 将 24 fps 电影 胶片 转换 成 60 fps 的 NTSC YY 的 3:2 下 拉 运 算 L5] 


号 种 化 式 都 是 隔行 的 ,所 以 这 不 是 - 


-个 简单 的 2:1 下 采样 的 问题 。 图 4.16 而 出 了 


CES) MEER al 
(a) 画图 说 明 BT,601 4:2:2 和 4:2:0 BRAD ARE SPAR Hn] EA BE NTA AY 
内 插 涉 波 器 。 
场 1 场 2 场 1 场 2 
Aw po 
OB 
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3 1 
1 T4 
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Ko ou 
Ob 
Me vo 
SN 
ow 
4:2.2 粘 式 中 4:20 Arp 
Af HE PE a HERE A 


图 4.16 BY.601 4:2:2 利 4:2:0 格 式 中 的 色 度 采 样 点 之 间 的 关系 


(b) 为 了 简单 起 见 , 我 们 可 以 将 滤波 限制 在 同一 


场 1( 场 2) 中 的 滤波 进 


建议 的 预 滤波 运算 是 : 


G’ ={ -29A + 88E + 138G + 881 - 29M)/138 
对 于 场 2. 必 须 进行 2 伴 的 内 揪 来 获得 所 需 的 采样 点 - 


S=(D+7F+7H+ J )/16 


STEED ALE SE 


场 中 , 即 场 区 场 2) 的 采样 点 只 用 在 
行 下 采样 。 实 际 上 这 是 在 MPEC-2 标准 中 建议 的 把 4:2:2 
格式 转换 成 4:2:0 的 - -秘技 术 、 在 这 种 情况 下 , 场 1 必须 进行 2 倍 的 下 采样. 


所 
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对 上 述 重 采样 方案 ,确定 场 1 和 场 2 的 等 效 垂 直 滤 波 器 , 以 及 总 的 垂 喜 -时间 
滤波 器 。 将 结果 与 (a) 的 理想 滤波 器 进行 比较 。 
4.7 习题 4.6 考 虑 了 从 4:2:2 到 4:2:0 格 式 的 转换 。 这 里 我 们 考虑 从 4:2:0 到 4:2:2 格 
式 的 转换 问题 。 
(a) 画 出 中 间 点 阵 并 确定 在 这 个 点 阵 上 的 理想 内 插 滤波 器， 
(D) 对 于 如 下 的 实际 方案 确定 等 效 滤波 器 及 其 频率 响应 [5]: 对 于 场 1, 需 要 进行 2 
售 的 内 桂 , 用 两 个 相 邻 样 点 的 平均 来 获得 丢失 的 样 点 ; 
G=(R+ T)/2 
对 于 场 2, 需 要 进行 4 信和 的 内 插 , 后 跟 一 个 2 售 的 飞 采样 。 最 终 的 运算 是 : 
D=(30+8)/4,  F=(Q+35)/4 
确定 场 | 和 场 2 的 等 效 垂直 滤波 器 ,以 及 在 内 捅 格 栖 上 总 的 垂直 -时 间 波 波 器 。 
求 出 它们 的 频率 响应 。 与 (a) 中 的 结果 进行 比较 。 
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数字 视频 图 像 处 理 的 任务 之 -是 措 述 .个 视频 序列 中 相继 图 像 之 间 在 物体 的 运动 和 其 他 
效果 方面 的 变化 ,例如 照度 的 改变 和 摄像 机 运动 。 为 了 把 真实 世界 的 变化 与 视频 序列 的 变化 
KREK ,我 们 需要 描述 真实 世界 和 图 像 生成 过 程 的 参数 化 模型。 最 重要 的 模型 图 场 具 、 物 
体 .摄像 机 以 及 照度 模型 。 这 些 模型 描述 了 我 们 对 真实 世界 做 出 的 一 些 假设 。 依 赖 于 所 选 定 
的 模型 ,我 们 可 以 用 或 多 或 少 的 精度 和 细节 来 卉 述 真 实 性 界 。 使 用 图 像 分 析 工 具 , 可 以 从 真实 
世界 网 像 的 视频 序列 中 估 讶 出 参数 模型 的 参数 。 用 这 些 参数 模型 和 估计 出 的 参数 ,我 们 可 以 
重建 一 个 近似 于 真实 世界 的 模型 世界 。 表 5.1 示 出 了 我 们 用 米 命名 参数 模型 的 - 些 术语 E 
们 相应 的 真实 世界 实体 , 以 及 根据 参数 模型 重建 的 实体 和 在 异型 世界 中 给 出 的 实体 。 我 们 用 
限定 词 "其 实 *" 和 ”模型 "来 区 别 真 实 亿 办 和 模型 世界 的 术语 。 当 上 下 文 很 明确 的 时 候 ,我 们 可 
能 忽略 这 个 限定 词 。 

在 下 面 各 节 中 ,我 们 描述 摄像 负 模 型 (5,1 节 ) ,照度 模型 (5.2 节 ) ,物体 模型 (5.3 季 ) 以 及 
场景 模型 (5.4 节 )， 目 前 大 多 数 视频 处 理应 用 中 的 物体 模型 部 假定 物体 做 二 维 运动 。 我们 在 
5.5 节 中 描述 有 关 的 二 维 运动 模型 。 

取决 十 所 使 用 的 模型 ,模型 参数 估计 可 能 是 困难 的 。 在 第 6 章 和 第 7 章 中 ,我 们 将 分 别 讨 
论 二 维和 三 维 运动 的 模型 参数 估计 问题 。 

表 5.1 真实 世界 和 模型 实体 的 命名 约定 




















































































































夏 实 世界 参数 模型 模型 世界 
ELEA ARSA RUHR 
真实 物体 物体 模型 模型 物体 
AREN PELEN EURA 

真实 形状 形状 模型 ENER 

真实 运动 运动 模型 模型 运动 
ARREN EA eR 
真实 图 俐 | 图 像 模型 模型 图 像 
KLR MURUN | 模型 由 度 

5.1 摄像 机 模型 


摄像 机 模型 描述 真实 场景 中 的 真实 物体 在 真实 摄像 机 成 像 平 而 上 的 投影 。 成 像 平 而 也 称 
为 摄像 机 靶 。 然 后 把 成 像 平面 上 的 图 像 转 换 为 数字 图 像 ,如 第 ] 章 所 述 。 


5.1.1 HFE 
真实 物体 在 真实 摄像 机 靶 上 投影 的 一 种 广泛 使 用 的 近似 是 针 孔 摄像 机 模型 ,如 图 5.1 所 
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示 。 在 这 幅 图 中 ,FF 代表 摄像 机 的 焦距 ,C 代表 焦点 (也 称 为 摄像 机 中 心 )。 一 个 三 维 点 路 的 
投影 位 置 x 是 连接 X 和 C 的 直线 与 成 像 平 面 的 交点 。 因 为 成 像 平面 位 于 焦点 之 后 ,所 以 成 像 
位 置 与 它 真 实 的 三 维 位 闸 是 相反 的 。 大 多 数 在 视频 处 理 中 采用 的 摄像 机 模型 把 成 像 平面 和 物 


体 放 在 焦点 的 同 侧 ,如 图 5.2(a) 所 示 , 以 避免 处 理 成 像 平 面 中 被 反 转 的 位 置 。 





























Y 





图 5.1 针 孔 摄像 机 的 透视 投影 


不 失 一 般 性 ,我 们 假设 ( 见 图 5.2(a)) 三 维 坐标 系统 (也 称 为 世界 坐标 系统 ) 的 原点 位 于 焦 
MCAD 和 平面 与 成 像 平面 平行 ,而 且 世 界 坐标 (了 ,了 ,Z) 遵 循 右 于 系统 ,以 Z 轴 的 正方 向 为 
成 像 方 向 。 进 一 步 ,我 们 假设 成 像 平面 使 用 与 三 维 坐 标 同 样 的 距离 单位 。 从 图 5.2(a) 所 示 的 
相似 三 角形 ,我 们 有 : 














=X ZY 
FOZ) FZ (5.1.1) 
x 
x Y 
x=Fz y=F7 (5.1.2) 


这 个 关系 称 为 透视 投影 。 透 视 投影 的 一 个 显著 特性 是 物体 离 摄像 机 越 远 它 所 成 的 图 像 就 越 
小 。 在 数学 上 ,这 可 以 描述 为 投影 的 x A y 值 与 深度 2 的 值 成 反比 关系 。 

当成 像 物 体 距 离 摄像 机 平面 很 远 时 ,透视 投影 可 以 用 正 交 投影 近似 ,也 称 为 平行 投影 ( 见 
图 5.2(b)): 





“=X, y=Y (5.1.3) 
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图 5.2 摄像 机 模型 :(a) 在 针 也 摄像 机 中 使 用 透视 投影 ;(b) 用 绊 行 投影 作为 针 孔 摄像 机 的 
近似 -在 这 两 种 情况 之 下 ,假设 世界 坐标 系统 的 平面 与 网 像 半 面 古 完 全 对 准 的 


显然 ,这 个 关系 是 非常 简单 的 ,而 日 使 三 维和 二 维 之 间 的 变换 天 大 简化 。 实 际 上 ,物体 必须 距 
离 摄像 机 很 远 的 要 求 可 以 放宽 。 只 要 物体 去 面相 对 深度 的 变化 与 物体 到 摄像 机 的 距离 相 比 可 
以 忽略 时 ,就 可 以 可 靠 地 使 用 这 个 近似 。 

注意 ,透视 投影 和 正 交 投 影 都 是 多 对 一 的 映射 。 实际 上 ,在 连接 焦点 C 和 图 像 点 x 的 光 
线 上 的 所 有 一 维 点 都 会 以 x 作为 它们 的 投影 点 。 我 们 把 这 条 光线 命名 为 观测 线 。 在 成 像 平面 
上 看 到 的 只 是 这 条 光线 所 过 到 的 第 一 个 物体 点 。 摄 像 机 模型 中 所 用 的 这 种 投影 的 多 对 一 映 
射 ,使 基于 一 维 图 像 估计 物体 的 三 维 结构 和 运动 成 为 非常 由 难 和 具有 挑战 性 的 问题。 

具有 透视 投影 的 针 孔 摄像 机 模型 只 是 大 多 数 真实 摄像 机 的 一 种 近似 。 它 没有 考虑 摄像 机 
轴 与 巾 像 中 心 对 不 准 ,真实 镜头 有 限 孔 径 的 低 通 滤波 作用 ,有限 曝光 时 间 以 及 镜头 的 其 他 失真 
问题 ， 
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5.1.2 CAHYV 模型 


在 - 些 应 用 中 ,我 们 希望 对 摄像 机 的 描述 能 够 使 我 们 容纳 摄像 机 的 运动 。 进 - 步 ,我 们 希 
望 校准 摄像 机 以 补偿 针 孔 摄像 机 模型 与 真实 摄像 机 之 间 的 几何 误差 。CAHYV 摄像 机 模型 [16] 
用 四 个 矢 此 描述 针 孔 摄像 机 模型 的 透视 投影 : 

C: 指向 摄像 机 中 心 的 矢量 ; 

A: 在 光 轴 方向 上 的 单位 矢量 ; 

H: 成 像 平 面 水 平 轴 方向 上 的 单位 矢量 ; 

Vor 成 像 平 曾 王 直 轴 方 向 上 的 单位 矢量 。 
图 5.3 两 出 了 这 个 几何 图 形 。 改 写 公式 ($5.1.2) 的 透视 投影 ,把 矢 基 (PC) 投 影 到 摄像 
机 轴 A 以 及 成 像 半 面 轴 HL 和 V, , 按 下 式 把 点 王 投影 到 图 像 点 p: 



































npg 
i)i eg (5.1.4) 
性 界 坐 标 系 统 
BRR RE 
ACEH 
MARS 
P A vA 





图 5.3 JH CAHV 摄像 册 模 型 得 到 的 空间 -点 PARR F bi l- p BAR 


实际 上 ,图 像 平面 坐标 和 世界 坐标 并 不 总 是 如 针 筷 摄像 机 模型 按照 公式 (5.1.2) 所 假设 的 
那样 完全 对 准 的 。CAHY 摄像 机 模型 通过 它 的 非 固 有 参数 C 和 A 以 及 它 的 固有 参数 H, V 
和 已, 可 以 表征 实际 的 摄像 机 系统 。 这 些 参数 使 我 们 能 够 描述 -个 偏离 摄像 机 轴 的 成 像 平面 ， 
也 可 以 描述 由 光学 系统 引入 的 某 些 失 真 。 附 加 的 闻 有 摄像 机 参数 据 述 镜头 的 径 向 失真 以 及 镜 
头 的 调制 转移 函数 (MFT)。MEFT 可 以 用 一 个 低 道 滤 波 器 模型 化 。 可 以 用 摄像 机 校准 算法 信 算 
这 些 参 数 ; 有 兴趣 的 读者 可 以 参阅 参考 文献 [2]。 当 由 视频 序列 估计 二 维 形状 和 运动 时 ,准确 
地 了 解 摄像 机 参数 是 外 其 有 用 的 。 最 近 , 研 究 大 员 提 出 了 不 需 校 准 摄像 机 而 从 - .个 图 像 序列 
提取 三 维 形状 和 运动 的 算法 [10]。 


5.1.3 摄像 机 运动 


图 5.4 示 出 了 典型 的 摄像 机 运动 。 摄 像 机 沿 兰 成 像 平面 的 水 平 轴 ( By ) ME ECV ) 平 
移 分 别称 为 跟 (back) 和 郧 (hoom)。 沿 摄像 机 交 轴 方向 上 的 平移 被 称 为 推 (dotly)。 播 (fpan) 指 的 
是 绕 重 自 轴 (V。) 施 转 ,而 侦 (tilt) 指 的 是 绕 水 平 负 (HL,) 旋 转 。 摄 像 宙 绕 光 轴 旋 转 称 为 滚 (roll)。 
除了 具有 这 些 运动 类 型 之 外 ,摄像 机 还 能 够 改变 它 的 焦距 , 称 为 灾 焦 。 正 如 前 面 提 到 的 .CAHV 
摄像 机 模型 很 适合 于 表示 这 些 各 种 各 样 的 摄像 机 运动 。 
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图 5.4 摄像 机 运动 的 典型 类 型 


5.2 照明 模型 


正如 1.1.1 他 找 述 的 那样 ,有 两 种 类 型 的 光源 :照明 和 反射 。 照 明 模型 描述 入 射 到 物体 上 
的 光 旭 何 影响 肥 射 光 的 分 布 ,我 们 所 看 到 的 就 是 这 种 分 布 。 在 这 一 节 中 ,我 们 播 述 几 种 这 样 的 
模型 。 照 明 模型 可 以 分 为 光谱 模型 和 几何 模型 。 如 果 我 们 想 要 对 来 自 几 种 彩色 光源 ,或 由 不 
同色 彩 的 物体 或 彩色 反射 面 间接 照明 的 彩色 的 变化 建 模 ,可 以 使 用 光谱 照明 模型 。 几 何 模型 
描述 入射 光 的 幅度 和 方向 分 布 。 在 1.1.1 节 中 已 经 讨论 了 光谱 的 特性 ,本 节 讨 论 几何 模型 。 

几何 照明 模型 适用 于 环境 和 点 光源 。 对 于 每 一 种 类 型 的 光源 ,我 们 也 可 以 把 它 区 分 为 局 
部 和 总 体 照 明 模型 。 局 部 照明 模型 假设 照明 与 物体 的 位 置 以 及 其 他 物体 无 关 。 总 体 照 明 模 型 
还 要 考虑 物体 间 的 影响 ,例如 阴影 以 及 从 物体 表面 反射 的 光 。 


5.2.1 温 反 射 和 镜面 反射 


我 们 只 能 看 见 反 光 的 物体 ,而 所 感觉 的 颜色 取决 于 它们 反射 的 波长 范围 。 一 般 地 ,反射 可 
以 被 分 解 为 两 个 分 量 : 漫 反射 在 所 有 方向 上 具有 相等 的 能 量 分 布 ;镜面 反射 在 入射 光 的 镜 向 上 
强度 最 大 (关于 省 反射 和 镜面 反射 的 很 好 的 说 明 参 见 参考 文献 [3])。 只 呈现 漫 反射 的 表面 称 
为 庆 伯 表面 ,更 通常 地 描述 为 钝 的 或 无 光泽 的 -一 木头 表面 和 水 泥 墙 属于 这 一 类 。 由 于 漫 反 
射 ,我 们 才能 感觉 到 物体 的 颜色 。 镑 面 反射 可 以 用 发 亮 的 表面 和 镜子 观察 到 。 镜 面 反射 不 能 
显示 物体 的 颜色 ,只 显示 人 射 光 的 颜色 ;因此 ,我 们 实际 上 不 能 感觉 到 一 个 表面 上 只 呈现 镜面 
反射 的 物体 的 颜色 。 除 了 镜子 以 外 ,通常 的 表面 既 具 有 温 反 射 也 具有 镜面 反射 。 只 有 漫 反 射 
决定 物体 表面 的 颜色 。 在 日 光 下 看 一 个 人 的 眼睛 ,除了 一 个 白 点 之 外 ,我 们 道 常 看 到 的 是 眼睛 
本 身 , 这 个 白 点 是 由 太阳 光 的 镜面 反射 产生 的 。 根 据 经 验 可 知 ,如 果 我 们 相对 于 眼睛 改变 我 们 
的 位 置 ,那么 这 个 点 会 在 腿 睛 表面 移动 。 


5.2.2 在 不 同 照明 和 反射 条 件 下 的 光 强 分 布 


在 视频 处 理 中 ,照明 模型 主要 用 于 描述 由 真实 世界 的 照明 变化 引起 的 视频 序列 时 间 上 的 
变化 。 由 于 物体 与 它 所 投射 的 影子 一 起 运动 ,背景 的 照明 可 能 发 生变 化 。 由 于 物体 表面 反射 
光线 ,这 个 反射 源 会 改变 场景 的 整体 照明 。 

当 讨论 对 于 一 个 物体 表面 光源 的 相互 作用 时 ,涉及 到 三 种 类 型 的 能 量 。 第 一 个 是 入 射 光 
通 量 , 它 指 的 是 从 光源 发 射出 的 能 量 的 速率 ,用 瓦特 (W) 度 量 。 第 二 个 是 入 射 辐 照 度 , 它 指 的 
是 物体 上 每 单位 表面 积 的 人 射 光 道 量 ,单位 是 Wo (注意 ,物体 上 某 一 点 的 辐 照 度 取决 于 入 射 
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光 与 表 商 在 该 点 的 法 线 之 间 的 严 角 )。 最 后 一 个 是 反射 辐射 强度 , 它 度量 从 物体 表面 反射 的 光 

的 能 量 。 
反射 辑 射 强度 C 的 分 布 取决 于 人 射 光 辐 照度 五 的 分 布 和 物体 袁 面 在 该 点 的 反射 系数 本 
数 "。 最 一 般 的 关系 可 以 描述 为 : 
C(L,V,N,X, 2,4) = r(L,V,N,X,£,4}*E(L,N,X,,a) (5.2.1) 


其 中 入 是 物体 表面 的 位 置 ,N 是 在 位 置 多 处 的 表面 法 线 矢量,L 居 照 明 方 向 ,V 是 连接 X 与 摄 
像 机 焦点 的 观测 方向 ,4 是 光 的 波长 ( 见 图 5.5)[12]。 显 然 ,L,Y 和 N 是 X 和 1 的 函数 。 反 射 
系数 函数 r 定义 为 反射 光 强 度 ( 即 光 通 亮 ) 与 人 射 光 强度 之 间 的 比值 。 这 个 标量 函数 > 也 称 为 
漫 反射 系数 ,或 者 简称 为 反射 系数 。 反 射 系 数 函 数 取 决 于 人 射 光 的 波长 .表面 的 几何 形状 和 材 
料 质地 。 当 物体 移动 时 ,同一 位 置 上 的 反射 系数 随时 间 变 化 。 注 意 , CL, V,N,X, 1,A) 只 是 
对 属于 时 刻 + 时 表面 那些 勾 定 义 的 。 











图 5.5 从 方向 工 被 -个 具有 无 限 小 区 域 di, 的 点 光源 照射 的 一 个 
小 块 表面 4( 具 有 法 线 矢量 N) ,这 个 小 块 是 从 方向 Y 观 测 的 


在 下 面 的 段落 中 ,我 们 引 人 几 个 简化 的 假设 ,以 便 学 当 蝎 多 的 关于 反射 辐射 强度 (公式 
5.2.1) 的 知识 。 我 们 从 假设 不 透明 的 物体 表面 和 时 不 变 的 照明 (以 及 观测 ) 方 向 开始 。 在 这 种 
情况 下 ,公式 (5.2.1) 简 化 为 : 

C(N,X,t,A) = r(N,X.¢,2)*E(N,X,1,A) (5.2,2) 


注意 ,尽管 照射 和 观测 方向 (Y 和 工 ) 是 固定 的 ,然而 因为 物体 是 运动 的 ,所 以 入 射 光 辐 照度 仍 
然 是 随时 间 变 化 的 。 

一 个 环境 光源 在 任何 一 点 的 每 个 方向 上 辐射 相同 大 小 的 能 量 ,因此 它 照射 物体 时 不 会 产 
生 阴 影 。 当 入 射 光 是 这 样 一 个 环境 光源 而 且 物 体 表面 是 漫 反射 时 ,反射 辐射 强度 的 分 布 是 


C(X,1,A) = r,t, à) E(t,A) {5.2.3) 


其 中 E,(4,4) 代 表 时 刻 ¢ 环境 光 的 强度 。 由 于 光源 是 环境 光 , E, 不 依赖 于 表面 位 置 X 或 表面 
法 线 N。 由 于 表面 是 浊 反 射 的 ,反射 系数 函数 ;不 依赖 于 表面 法 线 N。 这 个 环境 光源 模型 是 
一 种 局 部 照明 模型 ,因为 我 们 无 法 对 阴影 之 类 的 总 体 效 果 建 模 。 在 房间 里 ,被 照 亮 的 白色 墙壁 
常常 可 以 模型 化 为 环境 光源 。 在 室外 ,被 云彩 遮挡 的 太阳 提供 环境 照明 。 

现在 我 们 讨论 由 点 光源 引起 的 反射 辐射 强度 。 假 设 兆 源 远 离 场景 ,以 至 于 物体 的 位 置 对 
人 人 射 光 没有 影响 。 对 于 局 部 照明 模型 和 漫 反射 表面 ,任意 物体 表面 点 X 处 的 反射 辐射 强度 取 
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次 于 入 射 光 方向 工 与 该 点 处 的 表面 法 线 N 之 问 的 类 角 , 记 为 8。 显 然 LIN = cos(8) 成 立 。 这 
HERTA 5.6 $ 名 (4,4) 代 表 光 涯 的 最 大 辐 照 诬 , 它 是 泊 光 乘 直 于 表面 时 的 辐 照 强度 。 


那么 对 于 处 于 任意 角度 8 的 光 , 辐 照度 为 E(t,4)cos0。 从 公式 (5.2.2) 开 始 , 存 义 处 的 反射 
辐射 强度 简化 为 [3]: 











COX AD) = r(K,2,4)+ E, (1, A)*max{0, LN) {5.2.4} 





图 5.6 点 光源 的 温 反 射 丰 各 个 方向 上 是 -个 常数 。 蝇 度 取 
决 于 才 而 法 线 N 与 到 光源 的 方向 工 之 间 的 光 角 昌 
在 公式 (5.2.4) 中 的 max 运算 符 是 防止 物体 上 那些 林 接 收 点 光源 光线 的 部 分 产后 负 的 反 
射 强度 。 典 型 的 点 光 涉 是 村 光 灯 和 太阴 。 当 环境 光源 和 点 光 涛 都 存在 时 ,任意 一 点 总 的 反射 
FR OR EAE FE TOURS oh (5.2.3 和 5.2.4) 计 算出 的 反射 辐射 强度 的 释 加 。 
如 果 点 光源 远离 物体 表面, 我 们 可 以 把 人 射 光 近 似 为 平行 光 。 这 个 近似 对 于 日 光 蔡 至 有 
叶 是 室内 光 是 合法 的 ， 在 这 种 情况 下 ,最 大 人 射 光 辐 照 度 已 TERMIT K X, ii e 
于 表 而 法 线 N。 假 设 场景 是 被 一 个 静止 的 、 远 距离 的 点 光源 以 及 个 时 间 和 空间 都 不 变 的 环 
境 光 申明 的 , 则 对 人 射 光 辐 照度 的 描述 可 以 简化 为 ; 
E(N,A) = E,(A) + E,(A)+max(0,L7*N) (5.2.5) 


REE TID PLE HEARN ( Phong ) SEAL [ 11), ABLE tk RA PP OS, 
EN CX, A) = r(A), ADERI IRAT PPE 
€(N,A) = r(A)+ E(N, (5.2.6) 

















5.2.3 物体 运动 引起 的 图 像 函 数 的 变化 


SER ,我们 考察 如 何 用 照明 模型 摘 述 图 像 平面 上 的 照明 效果 。 假设 是 白光 照旧 ,而 有 表面 
法 线 N( 因 此 物体 的 形状 ) 为 已 知 , 则 公式 (5.2.5) 中 的 照明 模型 可 以 用 来 确定 由 于 物体 运动 引 
起 的 -个 图 像 序列 中 的 照明 变化 。 有 三 个 参数 需要 估计 :环境 光 与 点 光源 辐 照 度 之 问 的 比值 
FTE, 以 及 描述 点 光源 方向 工 的 两 个 角度 。 

公式 (5.2.5) 所 给 出 的 模型 已 经 由 Stauder 在 基于 物体 的 分 析 -合成 编码 器 中 得 到 了 实现 
[13]。 在 一 维 图 像 平 面 中 ,他 假设 在 时 刻 + 像素 x 的 亮度 y 正比 于 在 对 应 于 x 的 一 维 点 入 处 
的 反射 辑 射 强度 , 即 ， 



































Y (x,t) = ke CCX) = ke r(X)- E(N) (5.2.7) 
其 中 上 上 是 常数 ,N RRINE T X ERA G XPE, AAJA 1 到 14 dA x, 运动 到 Xea (相应 
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的 表面 法 线 是 N, 和 Nt) 的 “个 点 的 尘 度 强度 依 下 式 变化 : 
E(N:.1) 
E(N,) 

另 一 种 简单 的 照明 模型 假设 图 像 信号 y (x) 依赖 于 照度 B(x) AL RB E(w), A 
都 定义 在 图 像 平 而 上 。 照 麻 妨 (x) 一 般 取 决 于 环境 光源 和 点 光源 。 假 设 坏 境 照明 , 漫 反射 表面 
以 及 具有 正 交 投影 的 摄像 机 模型 , 则 图 像 信号 由 反射 模型 给 出 : 


W(x .tt d) aY Ost) (5.2.8) 























W (x,t) = hy E(x) r(x, £) (5.2.9) 
其 中 ,总 EAR TERIOR TE WM x, 运动 到 x, MA SY (xz 将 按 下 式 变化 : 
Yanti d) = hy ECR) r,t) (5.2.10) 











H rest d) = ray, DEV, BU a Be RS ah. ARS. 2.10) 
HRR RA NA ies Bh TBE , ARAE REFA. EA Ze RD ic 
的 一 维 运动 估计 .三维 运动 估计 以 及 运动 物体 与 其 阴影 的 分 割 等 方面 是 很 有 用 的 [1,4,9,14]。 
这 种 最 简单 的 同时 也 中 应 用 最 广 的 照明 模型 简单 地 假 没 E(x) 是 一 个 常数 。 在 这 种 情况 
下 ,运动 点 的 亮度 不 变化 ,公式 (5.2.10) 简 化 为 

WR tt d) =¥ (x,t) (5.2.11) 


这 有 时 称 为 恒定 亮度 假设 。 对 于 空间 和 时 间 人 不 变 的 环境 照明 源 和 漫 反射 表 而 , 它 是 合法 的 。 
在 这 种 条 件 下 ,没有 运动 的 阴影 ,也 没有 出 光滑 表面 引起 的 反射 。 除 韭 男 外 说 盈 , 本 书 中 所 讨 
论 的 算法 都 使 用 这 个 假设 。 
在 前 面 的 公式 中 ,我 们 假设 入射 光 强 度 是 时 不 变 的。 然而 ,只 要 物体 表 而 不 是 完全 平坦 的 
和 静止 的 ,反射 辐射 强度 及 亮度 同 像 通常 就 是 随时 间 和 空间 变化 的 。 当 假设 人 射 光 为 彩色 时 ， 
前 面 的 讨论 可 以 推广 到 视频 图 像 的 色 度 分 量 。 国 此 ,在 公式 (5,2.7 ~ 5.2.11) P, 4 ETRE 
亮度 函数 也 可 代表 彩色 函数 。 












































5.3 物体 模型 


物体 模型 描述 关于 真实 物体 的 假设 。 物 体 是 在 - -个 场景 中 我 们 可 以 认为 是 分 离 的 项 目的 
实体 。 对 什么 是 物体 的 解释 可 能 有 所 不 同 ,这 取决 丁 应 用 场合。 对 于 交通 监视 ,我 们 会 认为 每 
一 辆 轿车 是 个 物体 ;然而 对 于 视频 编码 ,我 们 也 可 能 会 根据 它 的 运动 来 定义 一 个 物体 ,把 一 
辆 轿车 分 制 成 旋转 的 车 轮 和 平 动 的 车 身 。 一 个 物体 是 用 形状 .运动 和 纹理 模型 描述 的 [7]- 

纹理 模型 描述 一 个 物体 表面 的 特性 。 在 这 里 ,我 们 假设 物体 m 的 纹理 用 彩色 参数 5。 来 
描述 。 这 些 彩色 参数 既 包 含 党 度 反 射 系数 也 包含 色 度 反射 系数 。 由 于 道 常 按 照 公式 (5.2.11) 
假设 恒定 亮度 ,内 此 这 些 彩 色 参 数 对 应 于 图 像 信号 妈 (x)。 

尽管 在 本 蔬 中 所 描述 的 所 有 物体 模型 使 用 相同 的 纹理 模型 ,然而 它们 采用 不 同 的 运动 和 
形状 模型 。 运动 和 形状 模型 通常 是 从 物体 的 一 个 近似 的 三 维 描述 中 导出 的 ,以 便 简 化 模型 参 
数 的 估计 。 在 本 章 中 ,我 们 从 晤 一 般 的 形状 和 运动 模型 开始 。 根 据 需 要 将 介绍 对 这 些 模 型 的 
简化 ( 见 5.5 节 和 第 7 章 的 讨论 ) 。 
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5.3.1 形状 模型 


一 个 三 维 物体 的 形状 由 它 所 占据 的 二 维 空间 描述 。 如 果 我 们 把 一 维 空间 量化 成 体 素 , 即 
边民 为 2 的 小 立方 体 , 那 么 我 们 就 可 以 对 于 每 一 个 体 素 确定 它 是 否 属 于 这 个 物体 。 图 5.7 给 
出 了 狗 示 ,其 中 v 表示 立方 体 每 个 边 的 长 度 。 物 体 的 形状 可 以 是 两 的 或 四 的 ,可 以 有 润 。 假 
设 物体 是 拓扑 连接 的 , 即 我 们 可 以 而 一 条 路径 从 物体 上 的 任何 -点 到 任何 其 他 一 点 而 不 离开 
物体 。 物 体 到 图 像 半 面 上 的 投影 订 能 会 出 现 拓 盾 的 非 连 接 区 域 ,这 是 由 被 遮挡 的 物体 的 各 部 
分 或 位 于 图 像 之 外 的 物体 的 各 部 分 产 牛 的 。 咎 于 我 们 对 物体 的 内 部 并 不 是 很 感 兴趣 , 体 率 表 
不 从 存储 的 角度 来 说 效率 不 高。 因此 ,我 们 通常 用 物体 的 表面 米 描述 它 的 形状 。 叶 常 采 用 三 
角形 网 格 , 即 通常 所 谓 的 线 框 。 二 角形 网 格 足 用 称 为 控制 点 的 顶点 PO 构建 的 。 除 了 这 些 控 
制 点 之 外 ,我 们 需要 一 个 表 玉 说明 哪些 控制 点 定义 二 角形 ( 见 图 5.8)。 假 设 控制 点 的 列表 如 
图 5.8(b) 那 样 被 编号 ,那么 我 们 就 可 以 用 这 些 数字 作为 控制 点 的 索引 。 这 就 把 对 表面 小 块 或 
面 的 定义 简化 为 给 出 定义 这 些小 块 的 索引 表 。 这 个 索引 表 称 为 索引 而 集 表 ,如 图 5.8(e) 所 
未 。 有 时 ,而 是 由 三 个 以 上 的 点 定义 的 ， 
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图 5.8 J PUTA UR BVA Ca) Reo A 28 = AEN Cb) 第 
JEU RN TEAR: (c) 一 组 关联 控制 点 表 的 二 角形 表 
一 个 线 框 的 控制 点 位 于 物体 的 表面 。 熔 制 点 的 数目 和 位置 是 册 物 体 的 形状 以 及 线 框 模型 
对 物体 丧 状 描述 的 精度 决定 的 。 当 控制 点 不 能 被 独立 地 移动 时 ,这 个 物体 就 是 刚性 的 ,而 旦 不 
能 改变 它 的 展 状 。 香 则 ,物体 是 柔性 的 ,可 以 改变 它 的 形状 。 
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5.3.2 运动 模型 

正如 刚刚 渤 到 的 ,一 个 物体 可 以 是 刚性 的 或 柔性 的 。 刚 性 物体 的 运动 可以 用 一个 平移 向 
量 T= (7T,7,, 7.)” 和 一 个 旋转 矩阵 [及 ] 来 描述 。 注 我 们 首先 用 运动 参数 和 [RR] 描述 物体 
上 的 -个 点 在 三 维 空间 是 如 何 运动 的 。 平移 矢量 工分 别 用 在 坐标 轴 X,Y7, 2 方向 二 的 TT, T, ， 
T, 描述 一 个 点 从 买 到 X' 的 位 移 : 

X'=X+T (5.3.1) 

如 果 物 体 被 平移 ,那么 公式 (5.3.1) 对 物体 上 所 有 的 点 都 是 成 立 的 。 

如 果 一 个 物体 绕 着 二 维 空间 的 原点 转动 ,那么 我 们 用 旋转 矩阵 [Rj 来 描述 它 的 各 个 点 的 
dea: 


























[R] =iR,]-{R,]-(R.] (5.3.2) 
旋转 矩阵 按照 这 个 顺序 绕 着 X,Y 和 2 轴 旋 转 一 个 点 。 它 可 以 由 只 绕 着 一 个 轴 旋 转 的 几 个 旋 
转 矩 阵 计算 出 来 。 它 们 各 自 的 旋转 矩阵 是 ， 
fl 0 0 | 
[R,]=]0 cos#, -sin 和 (5.3.3) 
LO sinô,  cosé, J 
[ cosð, 0 sing,] 
[R =| 0 1 0 (5.3.4) 
L -sin& 0 cosô,d 
和 
[ cos, —sind, O 
[R.] =| sing cosb, © (5.3.5) 
L 0 0 iJ 


其 中 0,0, MO, 是 关于 每 一 个 轴 的 旋转 角度 。 最 后 ,我 们 把 [R] 表 示 为 旋转 角度 9., 9, 和 
的 函数 : 
cosd, cosg。 sind, sind, cos, - cosô sinf, cos, sin8, cos0, + sind, sin, 


[R] =| cosd,sin@, sing,sing,sing + cas0,cos?, cos, sind, sind, - sin8, cos8, | (5.3.6) 


ging, sin, c0s8, cosb cosb, 

这 个 旋转 矩阵 [有 R] 是 一 个 标准 正 交 矩阵; 即 它 满足 : 
[R]7= [R] (5.3.7) 
det[R] = +1 (5.3.8) 


DAE RATA Vk LA XM XB K AERA: 
X'=[R]:X+T (5.3.9) 
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对 于 许多 运动 估计 算法 ,按照 公式 (5.3.2), 在 线性 旋转 挫 阵 必须 关于 旋转 角度 进行 线 住 化 处 
理 。 假 设 旋转 角度 很 小 ,使 得 cos(a) = 1, sin(a} “a 成 立 , 则 公式 (5,3.6) 简 化 为 ， 
[1 -8 8 
‘RI=[R'1=| 8, 1 -@, (5.3.10) 
L-8 从 i 

Bk (5.3.9) FE RL BUR X SOR ERED RAAT ERE. ERRERA TA 
ABT Ply ai PEER E A ee BT BE SAE ER OR Rm EN 
运动 ”这 种 情况 可 以 用 下 述 方法 避免 :对 每 个 物体 定义 - :个 局 部 坐标 系统 ,并 口 定 义 物体 关于 
EA UAT ts C= (C, C, C)" 的 旋转 和 平移 ,这 个 中 心 也 可 以 是 局 部 坐标 系统 的 中 心 ( 见 图 
5.9), Bi: 














X' =R] (X-C)+C+T (5.3.11) 


设 C0, WASSR(S 3.9) FNC5.3. 11) Fb RIER ERA, RR FER ER 
晤 是 不 同 的 。 








运动 前 的 物体 






运动 后 的 物体 


图 5.9 表 泵 点 买 的 运动 的 世界 坐标 系统 


如 果 -个 物体 的 所 有 点 以 相同 的 三 维 运动 参数 运动 , 则 它 是 刚性 的 ， 正 如 前 面 所 说 明 的 ， 
其 性 物体 的 运动 可 以 用 参数 AG = CP, TT GOP gl” al” ) 来 描述 。 当 -个 刚性 物 
体 以 参数 集 AM Jat, KUEN. 

不 是 所 有 真实 的 物体 都 是 刚性 的 。- -种 描述 条 性 物体 的 方法 是 将 这 个 物体 分 解 成 两 个 以 
上 的 刚体 组 元 。 按 照 公式 (5.3.11), 每 个 纪元 者 有 它 自己 的 运动 参数 。 由 上 每 个 组 元 都 是 由 
它 的 控制 点 定义 的 ,这 些 组 元 是 市 将 不 同 组 元 中 的 控制 点 相互 连接 起 来 的 三 角形 建立 联系 的 。 
通过 这 些 二 角形 ,组 元 被 汉人 性 地 连接 起 来 。 隐 5.10 示 出 了 一 个 其 古物 休 " 背 景 "和 和“ 克莱尔” 
(Claire) 的 场景 。 模型 物体 “ 训 菜 尔 " 包 括 两 个 组 二 “ 头 " 和 “ 启 ”"。 措 述 柔 性 物体 的 另 一 种 方法 
是 将 小 的 局 部 运动 释 加 到 刚性 运动 参数 A ke WRA- -个 党 旗子 的 航行 善 的 船 ,我 们 可 以 
用 一 系 别 刚性 参数 4A" 描述 整个 船 的 运动 ,并 且 用 局 部 运动 对 风 中 旗子 的 运动 建 模 。 由 于 羔 
性 物体 会 因 局 部 送 动 改变 它们 的 形状 , 寺 此 这 种 柔性 应 该 用 形状 参数 还 是 运动 参数 来 扫 述 不 


是 明显 的 。 
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图 5.10 





5.4 场景 模型 















的 模型 物体 
从 图 像 中 


形状 用 





取 


上 面 已 经 讨论 了 如 何 对 照明 光源 ,物体 和 摄像 机 进行 模型 化 ,我 们 现在 蕉 备 讨论 成 像 场景 


的 模型 化 。 场 景 模型 
们 可 得 到 不 同 








点 被 投影 到 图 


描述 具有 照明 光源 ,物体 和 摄像 机 的 1 
的 场景 模型 。 图 5. 11 画 出 了 一 个 复杂 的 模型 场景 , 它 是 月 
的 。 它 是 用 一 个 假设 是 透视 投影 的 摄像 机 模型 得 到 的 。 这 个 模型 可 以 用 
物体 的 遮挡 以 及 投射 阴影 。 根 据 摄像 机 模型 ,每 一 条 虚线 描述 一 条 观测 





世界 。 根 据 用 于 不 同 组 元 的 模型 ,我 
三 维 场 景 模型 生成 
来 描述 物体 的 运动 和 
线 。 物 体 表面 上 的 一 

















像 平 面 上 观测 线 与 图 像 平面 的 交点 。 图 像 平面 上 的 投影 随 着 物体 的 运动 面 变 


化 。 物 体 1 和 3 谈 挡 了 物体 2 的 一 部 分 。 所 有 的 物体 这 挡 了 图 像 背 景 的 一 部 分 ,图 像 背景 定 
义 为 在 场景 中 没有 出 现 运动 物体 时 我 们 会 得 到 的 图 像 。( 虫 于 摄像 机 模型 的 透视 投影 ,物体 3 


延伸 到 未 被 物体 2 覆盖 的 图 像 区 。 
影 。) 如 果 物体 是 运动 的 ,我 们 把 它 
(或 区 域 ) 以 及 新 近 覆 盖 的 背景 (或 

图 5.12 画 出 了 具有 一 个 运动 





化 区 域 的 一 部 分 。 在 帧 上 , 变 
AWER. EW k + 1, 变 化 的 








图 











区 域 定义 为 运动 物体 


区 分 成 四 个 图 像 








5.11 中 的 场景 只 被 散射 光照 射 , 因 此 





我 们 看 不 到 任何 阴 


区 域 :静止 背景 ,运动 物体 .未 覆盖 的 背景 
区 域 }。 新 近 覆 盖 的 区 域 也 称 为 遮挡 的 
物体 的 两 个 图 像 帧 。 比 较 帧 和 +, 我 们 可 以 区 分 变 
和 未 变化 的 区 域 。 林 变化 区 域 表示 两 幅 图 像 中 静止 的 背景 。 运 动物 体 是 


区 域 或 背景 。 
的 
Rk AA + LE 














图 





区 域 定 义 为 运动 物体 区 以 及 由 于 物体 的 运动 在 帧 +1 将 被 覆 
KUREN k 看 不 见 的 未 覆盖 的 背景 。 


在 图 5.13 中 ,我们 看 到 一 个 具有 分 层 的 二 维 物 体 的 场景 。 摄 像 机 模型 采用 正 交 投影 而 不 
是 透视 投影 。 因 此 深度 对 场景 的 图 像 没有 影响 。 我 们 可 以 描述 从 摄像 机 观测 时 ,物体 是 如 何 


一 层 摆 一 层 的 。 这 个 场景 模型 不 能 描述 三 维 运动 的 效果 ,因为 我 们 没有 明确 地 使 














第 三 维 空 





间 , 因 而 通常 称 为 2.5-D 场景 模型 。MPEG-4 视频 编码 标准 支持 视频 物体 分 层 ,因此 也 支持 这 
个 场景 模型 (将 在 第 13 章 讨论 MPEG-4)。 


图 5.13 中 的 物体 1,2,3 处 于 与 图 5.11 中 相同 的 三 维 位 置 。 由 于 使 




















目 了 平行 投影 ,光线 现 


在 都 是 平行 的 。 因 此 ,在 图 像 平 面 中 物体 3 不 再 延伸 到 物体 2 之 外 。 
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物体 1 的 投影 












透视 摄像 机 





图 5.11 一 个 复杂 的 具有 几 个 物体 摄像机 和 漫 反射 照明 ( 盯 画 ) 的 -: 维 场景 


x 
一 中 一 改变 的 区 域 。 一 + 一 RACE 
1 i 


1 ay 
可 运动 物体 or 将 被 覆 益 的 背景 








re 
$ 
$ 
z 





Mikel 


| | 运动 物体 | 


图 5.12 将 变化 的 区 域 分 成 运动 物体 .未 覆盖 背 旭 和 即将 被 覆盖 的 背景 
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物体 1 的 投影 








一 物体 3 的 投影 


物体 2 的 投影 
图 5.13 - 个 具有 几 个 物体 .一 个 摄像 机 以 及 环境 照明 (未 曾 ) 的 2.5-D 场景 





图 5.14 示 出 了 对 图 像 处 理 很 有 用 的 基 简 单 的 场 量 模型 。 它 假设 所 有 的 物体 都 是 平坦 的 ， 
并 且 部 在 相同 的 图 像 平 商 上 。 二 维 物体 被 限制 在 一 个 二 维 平面 上 运动 。 不 支持 物体 分 层 的 概 
Be 这 个 简单 的 二 维 场景 模型 被 用 于 视频 编码 标准 H.261,H.263，MPEG-1 和 MPEG-2( 将 在 
第 13 章 讨论 )。 





















































摄像 机 机 
物体 1 ae 
H NE 
i | 
物体 ! 的 投影 上 | it i 
eee f 





Í 物体 3 的 投影 
ero 
wa 物体 2 的 投影 


图 5.14 “个 具有 几 个 物体 一 个 摄像 机 和 环境 照明 (未 画 ) 的 二 维 场景 


专用 场景 模型 的 选取 会 限制 照明 、 摄 像 机 和 物体 模型 的 选取 。 如 果 我 们 选择 了 一 个 二 维 
场 入 模型 ,那么 再 选 一 个 能 够 精确 描述 二 维 形状 的 物体 模型 就 没有 什么 意义 了 。 然 而 对 于 一 
些 频 用 场合 ,选取 一 个 二 维 场景 模型 的 同时 央 选 取 - 一 个 只 允许 二 维 形状 的 物体 模型 可 能 是 很 
有 用 的 。 
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5.5 二 维 运动 模型 


5.5.1 定义 和 符号 


当 摄像 机 或 场景 中 的 物体 运动 时 , 间 一 个 三 维 物体 点 的 图 像 也 将 变化 。 图 5.15 呵 出 了 一 
个 运动 的 物体 在 图 像 平面 上 的 投影 ,以 及 一 维和 三 维 运 动 之 间 的 关系 。 当 一 个 物 栖 点 在 时 刻 
i AX=[X, Y Z] 运动 到 时 刻 to = 4d WX [X,Y,Z] =[X+D,Y+tD,Z+ 
DJ" 时 , 它 的 投影 网 像 从 x=[x,y]” 变 为 x ala ay Valet dy td)". RUSE 
移 DOX;h ,4)=X' -X=[Dy,D,,D,]" 为 X 处 的 三 维 运动 和 失 量 , 称 一 维 位 移 xs) = x! 
-xs[d..4,)" 为 x 处 的 二 维 运动 矢量 。 广 意 ,一 般 运 动 矢量 (MYV) 是 和 位 置 有 关 的 。 作 为 在 
时 刻 二 所 有 图 像 位 置 x BR dsr ERA n 到 4, 的 一 个 一 维 运动 场 。 当 清楚 所 隐 含 
At, Ale, IL d(x). 




















图 5.15 ”一 个 运动 物体 的 投影 :三 维和 二 维 运动 矢量 之 间 的 关系 


普 换 描述 相应 点 之 间 的 位 务 , 有 时 更 方便 的 是 ,对 于 6 时 记 的 每 个 点 x, 指定 它 在 六 时刻 
相应 的 位 置 w(x; tte) =x 我 们 称 w(x; n, h) =x' 或 者 简化 形式 w(x) 为 映射 函数。 显然 ， 
它 与 运动 场 有 惟一 的 关系 :w (x) = x+ d(x)。 

在 本 书 中 ,我 们 只 涉及 具有 有 限 和 离散 图 像 域 的 .被 一 个 截断 点 阵 A 描述 的 数字 视频 信 
号 。 符 号 x=[x,y] EA 表示 -个 像素 索引 。 我 们 进步 假设 ,时 间 问 隔 d= 4 -4 可 以 等 
于 时 间 的 采样 间隔 ( 即 帧 间隔 ) ,也 可 以 等 于 这 个 间隔 的 整数 倍 。 对 于 -一 个 给 定 的 时 间 间 隔 , 运 
动 场 是 一 个 以 与 像素 次 序 相同 的 二 维 阵列 排列 的 一 维 矢量 的 有 限 集 。 这 个 离散 运动 场 通常 用 
一 个 矢量 图 画 出 ,如 图 5.16 所 示 。 图 中 每 个 第 头 的 方向 和 幅度 表示 位 于 篆 头 起 点 像 窒 处 的 
MY 的 方向 和 幅度 。 



































第 5 章 视频 模型 99 








\ 
, 
1 e L 
< 
IN NAINA 
Liao RS 











图 5.16 一 个 典型 的 一 维 运动 场 


蔡 换 使 用 在 给 定时 间 间 陋 的 实际 的 位 移 ,我 们 可 以 用 速度 矢量 来 表征 运动 。 这 个 速度 矢 
量 称 为 流 矢量 ,定义 为 v= 58 = 2a ay, WENER Eh, IAA A DA 
的 运动 就 可 以 认为 是 常数 , 即 v= d/d, 在 处 理 数 字 视频 时 ,我 们 通常 认为 d, = 1, 以 便 使 流 矢 
量 与 运动 矢量 同 义 。 如 定义 运动 场 一 样 ,我 们 可 以 定义 整个 图 像 域 内 的 流 场 为 vx; 4, n), 
x€A, 

在 实际 的 视频 序列 中 ,运动 矢量 不 总 是 定义 在 仁 个 点 上 的 。 如 5.4 节 所 述 ,在 一 个 场景 中 
可 能 有 重奏 的 物体 ,一 .个 在 另 一 个 的 后 面 ， 最 普通 的 例子 ( 见 图 5.12) 十 一 个 在 静止 的 背景 前 
运动 的 物体 。 林 歼 盖 背 景 的 运动 尔 量 不 定义 。 在 任意 给 定时 间 , 二 维 运动 场 的 -个 完整 的 定 
义 应 该 包含 一 个 德 模 图 像 和 - .个 运动 场 图 像 。 例 如 ,在 图 5.12 中 ,如 果 运动 是 从 帧 + 1 BB 
上 定义 的 ,那么 在 帆 +1 中 未 覆盖 的 背景 中 的 像素 应 该 标明 是 林 丽 盖 的 。 


5.5.2 相应 于 典型 的 摄像 机 运动 的 二 维 运动 模型 


木 节 将 描述 相应 于 图 5.4 画 出 的 一 些 摄像 机 运动 的 二 维 运动 模型 。 这 些 模型 可 以 由 假设 
图 5.2(a) 所 示 的 透视 成 像 几 何 导 出 。 即 图 像 坐标 (*，y ) 与 世界 泽 标 (X,Y,Z) 有 具有 公式 
(5.1,2) 给 出 的 透 神 映 射 关系 。 

为 了 导出 由 摄像 机 运动 产生 的 二 维 运动 ,我 们 首先 确定 物体 点 关于 新 的 摄像 机 坐标 的 新 
二 维 坐 标 ,然后 再 用 公式 (5.1.2) 确 定 它 的 图 像 位 置 。 

在 图 像 平 面 内 的 报 像 机 平移 { 跟 和 吊 ) ”回忆 跟 和 吊 分 别 基 指 光 学 中 心 沿 着 X 和 了 轴 的 
平移 ( 见 图 5.4(a))。 令 T, AT, 表示 实际 的 平移 ,那么 在 旧 的 摄像 机 坐标 中 任何 - CX, Y, 


了 Z) 的 一 维 位 置 将 变 为 : 
x x T, 
BEREK 
z Zi Lo 





























(5.5.1) 
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应 用 公式 (5.1.2) ,成 像 位 置 (x ,站 变 为 : 
x x FT AZ 
MWA 
因此 像素 (xz，y ) 的 平移 取决 于 它 所 对 应 的 : 维 点 的 Z 坐标 。 然而 ,当成 像 物 体 深度 的 相对 变 
化 与 物体 到 摄像 机 中 心 之 岂 的 平均 距离 2 相 比 很 小 时 ,我 们 可 以 用 一 个 常 矢量 来 近似 这 个 运 


动 场 , 即 : 
CT + 
[el 


其 中 = PTZ .0 = 上 ,1/Z。 注 意 , 沿 着 Z 轴 的 平移 ( 即 推 ) 将 导致 实际 上 更 复杂 的 .= 维 运动 场 。 
摄像 机 摇 和 倾 ” 播 利 倾 分 唱 是 指 氢 像 机 绕 着 Y 和 X 轴 旋转 ( 见 图 5.4(b)). 令 和 8. 表 

示 相 应 的 旋转 角 ,。 摄 像 机 的 新 坐标 与 打坐 标的 关系 起: 
X’ =/(R,][R,]X (5.5.2) 


其 中 LR, JAR, ] 如 前 面 公式 (5.3.3 及 5.3.4) 所 定义 。 当 旋转 角 很 小 时 ,我们 有: 




















1 0 @ 
[R, | 0 1 -4 (5.5.3) 
-0 0 1 
如 果 W, eZ, A Z, WA Z = 2. 用 公式 (5.1.2), 我 们 得 到 : 
x x) [OF 
“1% (5.54) 
d,(x,¥) OF 
ze |= (5.5.5) 





-OF 


TQ EAS a Ae A RE FA fA EIRE, A LEE 万 了 方向 的 
EAA EL Ee UROL IES BSB AY PH a 
摄像 机 变焦 $ 和 下 表示 变焦 前 和 变焦 后 的 焦距 。 用 公式 (5,1,2) ,容易 证 明 : 


[*]=[*] (5.5.6) 
y x 
中 p= PF BERR RON, ia: 


d(xyy) (1- p) 
[cl cael 


个 典型 的 对 应 于 变焦 的 运动 场 示 于 图 5.17(a) 中 。 

















(5.5.7) 
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图 5.17 ”相应 于 (a) 报 像 机 变焦 ; (b) 摄 像 机 旋转 的 运动 场 
PSM SE 7 辆 旋转 ( 见 图 5.4(b))。 因 为 这 种 旋转 不 改变 7Z 坐标 ,所 以 











透视 投影 后 的 净 影响 是 图 像 坐 标 进 行 了 旋转 , 即 ; 


ll a El- 10) (5.5.8) 











yl lano, e8, 
X 9, 很 小 时 ,近似 是 成 立 的 。 对 应 的 运动 场 是 ; 
d(x,y) -8y 
Fella (5.5.9) 





5.17(b) 画 出 了 由 旋转 引起 的 典型 的 运动 场 。 
四 参数 模型 ”考虑 一 个 顺序 地 进行 平移 , 反 \ 倾 ` 宰 依 和 旋转 的 摄像 机 。 运 用 前 而 给 出 的 
近似 , 同 -- 个 一 维 点 的 成 像 位 置 在 摄像 机 运动 前 后 的 关系 为 : 


[leo ee) iss.) 


=-[ PNE [$] (5.5. H1) 


这 个 映射 函数 有 四 个 参数 ,是 仿 射 映射 的 一 个 特例 , 仿 射 映射 一 般 有 6 个 参数 。 这 种 特殊 化 的 
形式 称 为 儿 何 轴 射 , 它 可 以 表征 二 维 空间 中 放 缩 .旋转 和 平移 的 任意 组 侣 。 如 果 播 .变焦 和 旋 
转 的 顺序 改变 了 ,这 种 形式 将 仍然 是 成 立 的 ,虽然 会 改变 参数 o 和 摄像 机 运动 参数 (p ,0, ,9,， 
8. ste st, ) 之 间 的 关系 。 


5.5.3 相应 于 三 维 刚性 运动 的 二 维 运动 模型 


前 面 的 二 维 运动 模型 没有 餐 盖 所 有 可 能 的 摄像 机 一 维 运动 。 特 别 是 ,它们 没有 考虑 摄像 
机 在 Z 方向 的 移动 ,也 没有 考虑 绕 任意 轴 的 旋转 。 三 维 空间 中 的 任意 一 种 摄像 机 的 运动 都 可 
以 分 解 为 一 个 三 维 旋转 和 一 个 三 维 平移 。 类 似 地 ,一 个 成 像 的 物体 可 能 进行 的 是 一 个 刚性 运 
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动 (旋转 加 平移 ) , 问 时 撒 像 机 是 静止 的 。 “ 般 , 摄 像 机 和 物体 都 可 能 进行 刚体 运动 ,很 难 将 摄 
像 机 和 物体 的 运动 分 上 六。 然而 ,整体 的 效果 相当 于 假定 一 个 项 目 ( 物 体 或 摄像 机 ) 是 静止 的 而 
另 一 个 项 日 进行 刚体 运动 。 在 本 节 中 ,我 们 考虑 由 这 种 任意 的 -: 维 刚体 运动 引起 的 二 维 运动 ， 
不 类 一 般 性 ,我 们 将 假设 摄像 机 是 静止 的 ,而 物体 进行 刚体 运动 。 

一 般 情况 ”正如 5.3 节 所 述 ,任何 物体 点 的 三 维 位 置 在 刚体 运动 前 后 的 关系 是 


x’ X [r 
| 加 四 (5.5.12) 
z z T, 
尽管 旋转 敌阵 有 9 个 参数 ,但 用 二 个 旋转 角 即 可 完全 确定 ( 见 公式 (5.3.6))。 再 加 上 3 个 平移 
参数 ,一 共有 6 个 参数 。 


将 公式 (5.1.2) 代 入 公式 (5.5.12), 经 过 一 些 处 理 ,我 们 可 以 得 到 运动 前 后 图 像 坐 标 之 间 
的 关系 : 


nO ty 


Fa fs Te 








rr Te ro 


~(nst nyt nF) Z+ TF 
rtrey+tr Fr)2+ TF 


(raxt rytrF)Z+ TF 
Gat rey tr FZ TF 
注意 ,如 果 对 平移 参数 7. ,7 ,7 和 深度 2 HITER FERA, IA, DA, y ) 之 间 的 
对 应 关系 不 会 收 变 ， 这 说明 基于 这 可 成 像 坐标 的 对 应 关系 ,参数 ToT, T, 只 相对 于 某 个 比 
例 因子 是 惟一 的 。 换 句 话说 ,只 能 确定 平移 矢量 的 方向 而 不 能 确定 其 长 度 ， 一 般 , 当 物体 表面 
( 即 对 应 于 每 个 {x,y) 的 了 值 ) 是 空间 变化 的 时 候 ,映射 是 数 是 逐 点 变化 的 ,从 而 不 能 用 少量 

投影 映射 ” 当 2 方向 没有 平移 运动 时 ,或 者 当成 像 物 体 具有 - ' 个 平坦 表面 时 由 ,容易 证 明 
公式 (5.5.13) 可 以 简化 为 下 面 8 FS EE 


xf 











y=F 








(5.5.13) 





antatt y 


bot bix+b,y 
Itext ey’ 7 Troster (5.5, 14) 


BE MELE 8 个 自 向 参数 ,它们 依赖 于 5 个 运动 参数 (回忆 三 个 平移 参数 只 相对 R 
个 比例 是 惟 -的 ,内 此 它们 中 只 有 两 个 是 自由 的 ) 和 二 个 物体 表面 的 平 而 参数 。 

在 研究 两 个 视频 帧 之 间 的 运动 或 等 效 地 研究 两 个 视 锅 帧 的 配 准 时 ,这 个 投影 映射 是 一 个 
重要 的 关系 式 ， 它 精确 地 模型 化 了 在 摄 像 机 或 物体 运动 后 同一 物体 的 图 像 之 间 的 关系 ,如 果 
下 述 任何 一 个 条 件 成 立 :(1) 物 体 只 有 一 个 平坦 表面 (在 这 种 情况 下 ,摄像 机 或 物体 元 或 两 者 都 
避 进 行 任意 的 三 维 旋 转 或 平移 ); 或 者 (2) 摄 像 仙 或 物体 沿 成 像 轴 ( 即 Z 轴 ) 都 没有 平移 @ (在 
这 种 傅 况 下 ,物体 的 几何 形状 可 以 基 任 意 的 )。 实 际 上 ,当成 像 场 景 不 共有 平坦 表 面 时 ,我 们 可 

















名 ”这 意味 着 对 于 某 些 常数 abre fk LANCA EHRE OX + 好 + 02 = 1s 

O AMAR IR AEREN. RE, Te SRR RET AA Ae ZR, RPM BE” 
这 个 术语 ， 

名 “一 个 在 成 像 方向 二 没有 有 平移 的 运动 有 时 称 为 零 视差 运动 
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以 把 成 像 区 域 划分 成 小 的 元 素 ,使 得 对 应 于 每 个 二 维 元 素 的 三 维 小 块 是 平坦 的 ,并 且 对 每 个 块 
运用 投影 模型 。 注 意 ,投影 映射 包含 作为 特例 的 纯 平 移 和 仿 射 觅 射 。 

当成 像 几 何 可 以 用 正 交 投影 近似 时 ( 见 公式 (5.1.3)), 容 易 证 明 -- 个 进行 三 维 刚体 运动 的 
平面 小 块 可 用 一 个 仿 射 说 数据 述 (见习 是 5.2)。 

投影 映射 可 以 表征 两 个 与 透视 成 像 有 关 的 独特 现象 [6] , 即 (1) 线 性 调频 效果 , 它 是 指 感觉 
的 空间 频率 随 着 与 摄像 机 距离 的 增 大 面 增 加 ;(2) 会 聚 效 果 ( 也 称 为 梯形 失真 效果 ), 它 是 指 两 
柬 平 行 光 随 着 距离 的 增加 看 起 来 越 来 越 靠近 .并 旦 最 终 会 聚 为 一 个 点 。 这 些 效果 示 于 图 $.18。 


SER HE HRE 厂 性 调频 模型 









































(EHR RHEN) (投影 的 (相对 投影 的 (EAM MKR) 


图 5.18 不 同 映射 函数 效果 的 图 解 


投影 映射 的 另 一 个 重要 特性 是 两 个 投影 映射 的 级 联 是 另 一 个 投影 映射 [6]。 这 对 于 估计 
酚 个 图 像 之 间 的 投影 映射 是 有 意义 的 :我 们 可 以 用 几 步 迭代 来 估计 参数 ;只 要 每 一 步 都 引出 一 
个 投影 映射 , 则 总 映射 就 保证 是 投影 映射 。 

作用 于 一 个 正方 形 块 的 投影 映射 如 图 5.19(d) 所 示 。 透 视 函 数 可 以 在 两 个 任意 的 四 边 形 
之 问 进行 映射 。 代 替 用 参数 e by 和 ci 我 们 可 以 用 两 个 四 边 形 之 间 四 个 角 上 的 位 移 由 = (xx 
一 2 一) ,大 =1,2,3,4, 参 数 化 一 个 投影 映射 。 习 题 5.9 考虑 如 何 根 据 x 和 d, 确定 投影 
映射 人 参数 。 

相应 于 -个 投影 映射 的 运动 场 是 : 

















aot ax + Gy 
Trorwtey 一 
应 该 指出 的 是 运动 场 本 身 不 能 用 投影 函数 描述 。 在 [6] 中 ,相应 于 一 个 运动 场 的 映射 用 一 个 称 
为 相对 投影 的 投影 映射 作为 近似 。 其 效果 示 于 图 5. 18。 我 们 可 以 看 出 它 能 相对 较 好 地 近似 
于 投影 映射 。 

5.5.4 投影 映射 的 近似 


实际 上 ,为 了 避 开 其 有 理 形式 引起 的 问题 ,投影 映射 通常 由 一 个 多 项 式 映 射 来 近似 。 在 这 
一 节 中 ,我 们 讨论 一 些 常用 的 近似 。 
仿 射 运动 ” 仿 射 运动 具有 如 下 形式 : 
d,(x,y) Ga + ajx + ary 
(Fel -| 
它 有 6 个 参数 ,a ,六 = 0,1,2。 正 如 我 们 已 经 指出 的 ,通过 投影 , SRR OLB ABS 
动 可 以 用 一 个 仿 射 函数 掺 述 。 进 一 步 , 一 个 进行 任意 三 维 刚体 运动 的 平面 小 抉 都 可 以 用 一 个 


bot Bix t boy | 


ETETA (5.5.15) 


d(x,y) = 





a, d,(x,y)= 








5.5.1 
bo + bi x + by (5.5.16) 
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正 交 投影 下 的 仿 射 函数 来 描述 。 然 而 仿 射 模型 不 能 获得 投影 映射 的 线性 调频 效果 和 会 罕 效 
果 , 如 图 5.18 所 示 。 

念 射 运 动 可 以 形象 化 为 因 三 角形 角 的 移动 由 -- 个 三 角 撒 变 为 另 一 个 一 角形 。 仿 射 参 数 完 
全 是 由 这 一 个 角 的 MY 决定 的 。 内 此 ,一 个 仿 射 运动 可 以 用 这 些 MY 参数 化 。 存 网 5.19(b) 所 
不 的 例子 中 ,我 们 只 能 指定 三 个 角 的 位 移 , 放 第 由 个 角 的 位 移 将 由 另外 三 个 角 的 MV 确定 ， 








图 5.19 基本 运动 模型 图 示 : (1) 半 移 的 :(b) 仿 射 的 ;{c) 双 线性 的 ;(g) 投 影 的 
双 线 性 运动 ” 双 线 性 具有 如 下 形式 : 


[2e] [eter ay + me 


d,( x,y) (5.5.17) 


bot bix t bay + bxy 
它 有 8 个 参数 ,a4 站 = 0,1,2,3。 从 图 5.18 可 以 看 到 , 双 线 性 映射 可 以 得 到 投影 映射 的 会 
聚 效 果 , 但 不 能 得 到 线性 调频 效果 。 

双 线 性 运动 可 以 形象 化 为 一 个 正方 形 被 扭曲 成 一 个 四 边 形 , 如 网 5 19(c) 所 示 。 这 8 个 参 
数 由 原始 四边形 的 由 个 倚 的 MY 完全 决定 。 注意 ,与 投影 映射 不 同 , 双 线 性 孙 数 不 能 在 两 个 任 
意 四 这 形 之 问 进行 映射 ,尽管 这 种 映射 只 有 8 个 自由 度 。 RETA OBR AE aR OF A RE 
Hy, RYE HL Fe ART rH RR ARTE LAE ER TER — 4 TE - 
个 曲 边 的 中 边 形 [15]:. 

其 他 多 项 式 模型 ”通常 任何 运动 丽 数 都 可 用 如 下 形式 的 多 项 式 映射 近似 ， 


(er = PRI (5.5.18) 




















平移 , 仿 射 以 及 双 线 性 运动 是 这 个 模型 的 特例 , 当 N, = N, =0 时 是 平移 , 当 N, = N, = 1 时 是 
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仿 射 , 当 N = LN, =2 是 双 线 性 。 相 应 于 N =2, N = 2 的 情况 是 : 


d, face) | (5.5.19) 
P bot bix t boy + bsa? + hy + hsxy 
这 称 为 双 二 次 映射 , 它 有 12 个 参数 。 如 图 5.18 Shas ORT APH R PEWA RR ADL 


不 能 产生 会 聚 效果 。 

在 参考 文献 [6] 中 , Mann 和 Picard 对 各 种 我 影 喘 射 的 多 项 式 近似 的 优 缺 点 进行 了 比较 。 
他 们 发 现 , 念 射 函 数 尽管 参数 较 少 ,但 是 较 容易 受到 噪声 的 十 扰 , 央 为 它 缺 乏 完全 跟踪 实际 图 
像 运动 所 需 的 恰当 的 自由 度 。 另 - -方面 , 双 线 性 函数 尽管 具有 恰当 数量 的 参数 ,但 不 能 得 到 线 
性 调频 效果 。 一 个 较 好 的 8 参数 模型 是 如 下 的 伪 透 视 映射 , 


d(x,y) 
bree = 


a+ ax + ay + axy + bax” 


(5.5.20) 





bot bix + bzy + baay + ay? 


从 图 5.18 看 到 ,这 个 映射 既 能 产生 线性 调频 效果 又 能 产生 会 聚 效果 , 它 是 用 低 阶 多 项 式 对 投 
影 映射 最 好 的 近似 。 


5.6 小 结 


木 章 讨论 了 参数 化 模型 , 它 使 我 们 能 够 描述 一 个 图 形 序列 是 如 何 产 生 的 。 根 据 应 用 场合 
我 们 可 以 利用 这 些 模 型 以 适当 的 精度 描述 真实 世界 。 

摄像 机 模型 (5.1 芝 ) 摄像 机 模型 描述 的 是 用 真实 摄像 机 将 三 维和 着 界 投影 到 图 像 平面 。 
根据 具体 的 应 用 场合 ,我 们 可 以 用 具有 不 同 复杂 程度 的 摄像 机 模型 。 如 果 三 维 世界 中 的 物体 
离 摄像 机 很 远 , 可 以 用 具有 正 交 投影 的 简单 的 摄像 机 模型 。 针 孔 摄像 机 模型 使 用 透视 投影 , 它 
使 得 我 们 能 够 随 着 物体 到 摄像 机 的 叱 离 变 化 ,描述 图 像 序 询 中 物体 尺寸 的 变化 。 

照明 模型 (5.2 节 ] 为 了 能 看 到 物体 ,需要 照明 所 观测 的 场景 。 描 述 物体 表面 光 的 照明 
和 反射 ,通常 需要 复杂 的 模型 。 然 而 ,我 们 假设 了 一 个 用 于 许多 视频 处 理 场合 的 最 简单 的 照明 
模型 ;环境 光 和 漫友 射 表 面 。 在 这 种 模型 下 ,一 个 物体 表面 的 反射 系数 不 随 物 体 的 移动 而 改 
变 。 这 个 模型 有 时 候 称 为 恒定 党 度假 设 (第 6 eas 7 章 给 出 的 运动 估 值 算法 广泛 地 使 用 了 
这 个 假设 )。 注意 ,用 这 个 模型 不 能 描述 阴影 或 光滑 反射 。 

物体 模型 (5.3 节 ) 物体 用 形状 ,运动 和 纹 埋 描述 。 一 个 物体 的 三 维 形状 可 以 利用 称 为 
体 素 的 单位 正方 体 的 体积 找 述 ;或 者 利用 线 框 的 表面 描述 。 我 们 骨 一 个 三 维 平移 矢量 和 一 个 
由 绕 3 个 坐标 轴 的 旋转 角 计 算得 到 3x3 旋转 矩阵 ,来 表示 三 维 物体 的 运动 。 可 以 通过 简化 三 
维 物体 的 形状 和 运动 模型 导 册 简单 的 模型 。 

场景 模型 (5.4 节 ) 场景 模型 描述 运动 物体 和 一 个 三 维 场 景 的 摄像 机 是 如 何 互相 定位 
的 。 在 视频 编码 中 ,我 们 道 常 使 用 二 维 场景 模型 ,假设 二 维 物体 与 摄像 机 的 成 像 平面 平行 运 
动 。 稍 微 复杂 一 些 的 2.5 维 场景 模型 使 我 们 能 够 处 理 物体 遮挡 。 最 后 , 三 维 场 景 模型 可 以 逼 
真 地 描述 真实 世界 。 

二 维 运 动 模型 (5.5 节 ) 在 三 维 室 间 中 物体 或 摄像 机 的 运动 导致 二 维 运动 。 二 维 运动 模 
型 不 仅 取决 于 三 维 送 动 模型 ,同时 也 取决 于 照明 和 撤 像 机 模型 。 最 重要 的 一 维 运动 模型 是 投 
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影 映射 , 它 适 用 于 小 的 二 维 区 域 , 当 物 体 和 摄像 机 进行 蜀 体 运动 时 ,摄像 机 可 用 透视 投影 建 模 ， 
而 且 适 用 恒定 亮度 假设 。 实 际 上 ,这 种 映射 通常 用 仿 射 映射 或 双 线性 映射 来 近似 。 


5.7 习题 


5.1 


5.2 


3.6 


5.7 


5.8 
5.9 


w 








假设 针 筷 摄像 机 的 焦距 为 = 9 mm, SEAL 1" x 1,33", ARBRE 352 x 288 像 
素 , 物 体 点 到 摄 像 机 中 心 的 中 离 为 2 = 2 m。 确 定 作为 三 维 空间 位 置 {(X, 了) 的 函数 


的 点 在 图 像 二 的 投影 。 为 了 使 它 的 成 像 点 移动 一 个 像素 ,都 么 该 点 








要 在 Z 方向 





上 移动 多 少 ? 如 果 我 们 假设 摄像 机 模型 是 正 交 投影 ,那么 答案 又 呈 什 么 ? 














试 证 明 , 在 正 交 投影 下 ,一 个 进行 平移 .旋转 和 放 缩 (出 于 摄像 机 变焦 ) 的 平坦 小 央 的 


























二 维 投影 运动 可 以 用 一 个 仿 射 函数 描述 。 

试 证 明 ,在 租 视 投影 下 ,一 个 进行 刚体 运动 的 平坦 小 所 的 二 维 投影 运动 可 以 由 -个 
投影 喘 射 描述 。 

试 证 明 当 成 像 物 体 具 有 半 坦 表面 时 ,公式 (5.5.13) 可 以 简化 为 公式 (3.5.14) 所 给 出 


的 投影 映射 。 也 就 是 说 ,物体 上 点 的 二 维 坐 标 对 PEER a, b, c 满足 aX + bY + 


eZ =1, 


考虑 一 个 三 角形 , 它 原始 的 角 的 位 置 在 x, k= 1,23. BRB—TABBIT do M 
定 能 够 实现 这 种 映射 的 仿 射 参数 。 

假设 已 知 图 像 中 点 x CK > 3) 的 运动 矢量 d, ,现在 急用 仿 射 映射 米 近 似 整个 运动 。 
如 何 确定 仿 射 参数 ? 

《提示 :用 最 小 平方 匹配 法 。) 

对 于 两 个 四 边 形 之 间 的 双 线 性 映射 , 重 做 习题 5,5。 假 设 可 以 利用 天 = 4 个 点 处 的 





位 移 。 








对 于 双 线 性 映射 , 重 做 习题 5,6。 假 设 K>4, 











对 于 两 个 
位 移 。 


(BEA :仍然 可 


x, Bix, =x 
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第 6 章 一 维 运动 估计 


运动 估计 是 视频 处 理 系统 的 一 个 重要 的 组 成 部 分 。 在 这 一 章 中 ,我 们 讨论 二 维 运动 估计 ; 
在 第 7 章 . 我 们 讨论 真实 的 一 维 运 动 估计 。 正 如 将 要 看 到 的 ，- 维 运动 估计 时 常 是 三 维 结构 和 
运动 估计 所 需 炎 的 一个 英 处 理 阶 段 。 同样 ,二 维 运动 估计 本 身 也 有 着 范围 广泛 的 应 用 ,包括 视 
频 几 缩 ` 采 样 率 转换 滤波 等 。 和 根据 所 期 望 的 应 用 场 人 台 ,为 产生 二 维 运动 矢 全 ,运动 估计 的 方法 
可 以 是 很 不 相同 的 ， 例 如 ,对 于 计算 机 视觉 应 用 场合 ,一 维 运动 入 量 用 于 推演 二 维 结构 和 运动 
参数 ,不 关键 特征 点 上 的 一 个 稀 杖 的 二 维 运动 矢量 集 可 能 就 是 够 (为 了 利用 它们 ,这 些 运动 
矢量 必须 在 物 奉 上 是 正 确 的 )。 男 一 方面 ,对 于 视频 压缩 场合 ,估计 的 运动 矢 其 用 来 根据 前 - 
个 已 编 码 的 参考 巾 产 牛 当前 编码 帧 的 运动 补偿 预测 。 最 终 月 的 是 使 编 色 运动 拓 晤 和 顶 测 误差 
所 用 的 总 的 比特 数 最 小 化 。 我 们 可 以 在 运动 估计 的 准确 性 与 表示 运动 所 用 的 比特 数 之 间 做 出 
折 中 的 选择 。 有 时 ,即使 舍 计 的 运动 不 是 实 除 物 理 运 动 的 精确 表示 , 仍 可 以 产生 好 的 时 间 预 
BY, HEAR 点 考虑 ,被 认为 是 一 个 好 的 预测 。 本 章 集中 讨论 以 运动 补偿 处 埋 ( 预 测 , 滤 波 、 
内 插 等 ) 为 日 的 的 运动 信 计 算法 的 类 型 。 关 于 这 个 课题 的 具 他 该 物 ,读者 可 以 参考 Musmann， 
Pirsch 和 Grallert-28] 以 及 Stiller 和 Konrad[ 38] 的 综述 论文 。 半 于 计算 机 视觉 应 用 中 运动 估计 
方法 的 一 个 很 好 的 介绍 ,请 参考 Aggarwal 和 Nandhahumar 的 文章 []]。 

质 有 运动 估计 算法 都 是 基于 图 像 亮 度 (更 一 般 地 ,彩色 ) 的 时 间 变化 的 。 实 际 上 , 基 F 亮 度 
变化 观察 到 的 - 维 运 动 吓 能 不 同 于 真实 的 一 维 运动 。 为 了 更 精确 起 见 ,把 观测 的 或 表 观 的 二 
维 运动 矢 基 的 速度 称 为 光 流 。 光 流 不 仅 可 以 由 物体 运动 引起 ,而且 可 和 由 摄 像 机 运动 或 者 照明 
条 件 的 变化 引起 。 本 章 从 定义 光 流 开始 。 然 后 导出 光 流 方程 ,这 个 方程 在 图 像 梯 度 和 流 欠 量 
之 交 施 加 了 一 个 约束 。 这 是 许多 运动 估计 算法 所 依据 的 一 个 基本 等 式 。 接 着 ,我 们 给 É 
运动 估计 的 一 般 方 法 学 。 大 家 将 会 看 到 ,运动 估计 问题 通常 转化 为 一 个 最 优化 问题 ,并 日 涉及 
一 个 关键 部 分 ;运动场 参 数 化 .最 优化 准则 的 公式 化 和 寻找 最 优化 参数 。 景 后 ,我 们 给 出 已 经 
开发 出 米 的 基 丁 不同 的 运动 场 参数 化 和 不 同 估计 准则 的 运动 估计 算法 。 除 非特 别 说 明 ,“ 运 
动 一 疗 在 本 章 指 的 是 二 维 运动 。 


6.1 光 流 






























































6.1.1 二 维 运动 和 光 流 


人 有 眼 尾 通过 在 不 同 的 时 刻 认 出 相对 应 的 一 些 点 来 感觉 运动 的 。 这 种 对 应 性 通常 是 由 假定 
一 个 点 的 彩色 或 亮度 在 运动 以 后 不 改变 来 确定 的 。 有 趣 的 是 归 注 意 , 在 某 些 情况 下 ,观测 到 的 
二 维 运动 可 能 不 同 于 实际 投影 的 二 维 运动 。 图 6.1 给 出 了 两 种 特殊 的 情况 在 第 一 个 例子 
中 ,一 个 具有 均匀 平坦 表面 的 球 在 恒定 的 坏 境 光 下 转动 。 因 为 球 上 的 每 点 都 反射 同样 的 彩 
色 , 所 以 人 眼 观 察 不 到 在 成 像 球 的 彩色 图 案 中 的 任何 变化 ,因此 认为 球 是 静止 的 。 在 第 二 个 例 
子 中 , 球 是 静止 的 ,但 是 被 -个 绕 闭 球 转动 的 点 天 源 照明 。 光 源 的 运动 引起 球 上 反射 光 点 的 运 
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动 .因而 使 人 眼 认为 球 在 运动 。 观 测 的 或 表 观 的 二 维 运动 在 计算 机 视觉 文献 中 被 称 为 光 流 。 
前 面 的 例子 说 明光 流 可 能 不 等 同 于 真实 的 二 维 运动 。 当 只 能 利用 图 像 的 彩色 信息 时 ,所 能 够 
得 到 的 最 精确 估计 就 是 光 流 。 然 而 ,在 本 章 剩 下 的 部 分 中 ,我 们 将 使 用 木 语 “ 二 维 运动 "或 者 简 
称 “运动 "来 描述 光 流 。 读 者 一 定 要 记 住 它 有 时 可 能 不 同 于 真实 的 二 维 返 动 。 



























































图 6.1 交流 并 不 总 是 与 真实 运动 场 相 同 。 在 图 (a) 中 ,球体 在 恒定 环境 照明 下 转动 ,但 起 
观测 的 图 像 没有 变化 ,在 图 (b) 中 ,点 光源 绕 着 静止 的 球 转动 ,引起 球 上 的 亮点 旋转 
6.1.2 光 流 方程 和 运动 估计 的 多 义 性 


考虑 一 个 视频 序列 , 它 的 亮度 变化 用 w(x,y, +t) 表示。 假定 在 时 刻 t 的 一 个 成 像 点 (x， 

y) 在 时 刻 t+ d, 移动 到 点 {x+ d,y+d,)。 在 5.2.3 节 (公式 (5.2.11)) 介 绍 的 恒定 亮度 假设 
下 ,同一 个 物体 点 在 不 同时 刻 的 图 像 具 有 相同 的 亮度 值 。 因 此 : 

Wxt+dytd,c+dJav (xy.t) (6.1.1) 


应 用 泰勒 展 开 公式 , 当 d,, d d, 很 小 时 ,我 们 有 ， 





























Vrtdsytd ttd) = (xy, D% Jah Fa, + 学 4 (6.1.2) 
联合 公式 (6.1.1) 和 (6.1.2) 得 到 ; 
wy Ha, + 人 d= 0 《6.1.3) 
公式 (6.1.3) 是 用 运动 矢量 (d,, d, ) 写 出 的 。 两 边 同时 除 以 d, 得 到 ， 
+ 名 w+ 各 =0 或 veres Æ 0 (6.1.4) 


其 中 (w o SRR CLEAR), VY = 3] TE y 中 的 空间 梯度 矢量 。 


外 ”在 本 书 中 ,我 们 只 考虑 基于 亮度 强度 信息 的 运动 估计 ,虽然 同样 的 方法 也 可 应 用 于 全 彩色 信息 。 
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公式 (6.1.4) 通 常 称 为 光 流 方程 ,我 们 已 经 假定 d 很 小 ,使 得 = df dg, = df, XPD 
式 成 立 的 条 件 与 5.2.3 节 中 所 讨论 的 恒定 亮度 假设 的 条 件 格 同 。 
如 图 6.2 所 示 , 在 任何 点 x 的 流 矢 址 都 可 以 分 解 为 酚 个 正人 交 的 分 量 ; 


V= 0,€, + 0e, (6.1.5) 

















图 6.2 把 运动 分解 成 法 线 (we ) 和 切线 (ae ) 分 好 :给 定 


YY 和 和 台 ,在 切线 上 的 任何 运动 人 最 都 史 足 光 流 方 和 





这 里 e。 足 图 像 梯度 Vy 的 方向 失 量 , 称 为 法 向 。e 垂直 于 e, , 称 为 切 向 。 公 式 (6.1.4) 的 
光 流 方程 可 以 写成 : 

















n lv + <0 (6.1.6) 


其 中 上 Vw | 是 梯度 矢量 的 幅度 。 由 公式 (6.1.4) 或 者 (6.1.6) 推 出 的 三 个 结果 是 ， 

1 .在 任何 像素 x RITRAE AEV V 和 oY /131 MEREK M v。 对 地 两 个 未 知 量 (w All v,» 
或 者 wm 和 w,) 只 有 一 个 方程 。 实 际 上 ,未 确定 的 分 量 是 w。 为 了 解 出 两 个 未 知 基 ,我 们 必须 施 
加 附 厅 条 件 ， 最 通常 的 约束 是 流 矢 基 在 空间 平滑 变化 ,使 我 们 能 利用 x 周围 一 个 小 的 邻 域 的 
亮度 变化 天 估计 x 处 的 运动 。 

2. 给 定 VW RIIV 10 ¢ ,速度 矢量 在 法 向 的 投影 是 固定 的 , 即 o, = - 《9% ary || YY || ,但 是 
在 切 向 的 投影 v, 古 不 确定 的 ,任何 w 的 值 部 将 满足 光 流 方程 。 在 图 6.2 中 ,这 意 昧 着 任何 切 
线 上 的 点 都 将 满足 光 流 方程 。 这 种 在 估计 运动 失 量 时 出 现 的 多 义 性 称 为 所 径 问题 ,“ 孔 径 ”-- 
词 在 这 里 指 的 昆 应 用 便 定 亮度 假设 的 一 个 小 窗口 。 只 有 当 孔 检 盏 少 包 括 两 个 不 同 的 梯度 方 癌 
时 ,才能 做 出 惟一 的 运动 估计 ,正如 图 6.3 所 示 。 

3. 在 恒定 亮度 区 域 , 即 VY |=0, 流 矢量 是 不 确定 的 。 这 是 因为 当 表面 具有 平坦 图 形 
时 ,不 会 感觉 到 有 亮度 变化 。 运 动 估计 仪 在 有 亮度 变化 的 区 域 是 可 靠 的 ; 换 钊 话说 , 仅 丰 有 边 
界 的 或 是 非 平坦 的 纹理 区 才 足 可 靠 的 。 


D OA - 种 导出 光 流 方程 的 方法 是 把 恒定 完 度 假 没 表示 成 dW (x,y, e/a = 0- 用 偏 微分 展开 W(x,y 1/ 四 将 得 到 
同样 的 方程 。 















































第 6 章 二 维 运动 估计 111 





真实 的 运动 





图 6.3 运动 估计 中 的 孔径 问题 :在 x 处 估计 运动 使 用 孔径 1, 但 是 不 可 能 确定 运动 是 
向 上 的 还 是 垂直 本 边缘 的 ,因为 在 这 个 孔径 中 仅 有 一 个 空间 梯度 方向 . 另 一 
方面 ,可 以 准确 估计 w 处 的 运动 ,因为 在 孔径 2 中 ,图 像 上 有 两 个 不 同方 向 的 梯度 


全 述 观点 与 在 2.3.2 节 中 讨论 的 空间 和 时 间 频 率 间 的 关系 是 一 致 的 。 在 那里 ,我 们 指出 
当空 间 频率 为 零 时 ,或 者 当 运 动 方 向 垂直 于 空间 频率 时 , 则 运动 物体 的 时 间 频 率 为 零 。 当 时 间 
频率 为 零 时 ,不 会 观察 到 成 像 图 形 的 变化 ,因此 ,运动 是 不 确定 的 ， 

在 后 面 各 节 中 将 会 看 到 ,在 所 有 运动 估计 算法 中 , 光 流 方 各 (或 者 等 效 地 ,恒定 亮度 假设 ) 
起 着 关键 的 作用 。 





6.2 一 般 方法 


本 章 考虑 丙 个 给 定 的 帧 y (x，y, 4 ) 和 (x,y, tz) 之 间 的 运动 估计 。 同 忆 5.5.1 节 , 在 时 
刻 和 所 之 间 ,xz 处 的 MYV 定义 为 该 点 从 二 到 4 的 位 移 。 我 们 称 t 时 刻 的 帧 为 错 定 帧 ,t, 时 
刻 的 帧 为 月 标 帧 89。 取决 于 期 望 的 应 用 , 锚 定 帧 在 时 间 上 可 以 超前 或 者 滞后 于 目标 帧 。 如 图 
6.4 所 示 , 当 和 < 时 ,该 问题 称 为 前 向 运动 估计 ; 当 a, > 时 , 称 为 后 向 运动 估计 。 为 了 标记 
方便 ,我 们 将 使 用 ，(x) 和 Y (3 分 别 定义 锚 定 帧 和 目标 帧 。 道 常 我 们 可 以 把 运动 场 表 示 为 
(x;9), 其 中 ,a=[ a ,0s,…, ar] 是 一 个 包含 所 有 运动 参数 的 矢量 。 类 似 地 ,映射 函数 可 以 
定义 为 w(xia) =x+ d(x;a)。 运 动 估计 问题 等 价 于 佑 计 参 数 矢量 8。 已 经 提出 的 方法 可 以 归 
为 两 类 ;基于 特征 的 和 基于 亮度 的 。 在 基于 特征 的 方法 中 ,首先 建立 两 个 视频 帧 中 所 选择 的 特 
征 点 对 之 间 的 对 应 关系 。 然 后 将 所 建立 的 对 应 关系 与 所 选择 的 运动 模型 进行 最 小 平方 匹配 ， 
以 得 到 运动 模型 参数 。 这 种 方法 仅 适用 于 参数 运动 模型 ,在 确定 总 体 运动 中 是 相当 有 效 的 。 
基于 亮度 的 方法 在 每 个 像素 点 应 用 恒定 亮度 假设 或 光 流 方程 ,要 求 被 估计 的 运动 尽 可 能 地 满 
是 这 个 约束 。 这 种 方法 比较 适合 于 当 进 行 的 运动 不 能 用 一 个 简单 的 模型 表 往 ,并 且 期 望 一 个 
像素 或 方块 的 运动 场 估计 的 时 候 。 

全 章 只 是 讨论 基于 亮度 的 方法 , 它 较 小 泛 地 应 用 于 需要 运动 补偿 预测 和 滤波 的 场合 。 一 
般 , 基 于 亮度 的 运动 估计 问题 可 以 转化 为 一 个 最 优化 问题 ,这 里 需要 回答 三 个 关键 的 问题 : (1) 
怎样 将 运动 场 参数 化 ?”(2) 用 什么 样 的 准则 来 估计 这 些 参 数 ? (3) 怎 样 搜索 这 些 最 优 参数 ? 在 
这 一 节 中 ,我 们 首先 描述 几 种 表示 运动 场 的 方法 。 然 后 介绍 不 同类 型 的 估计 准则 。 最 后 ,我 们 


C ARRE, HWY Cr, y, ARO Cr, y, 1 RUA, HEAT BARE oy > t ER 
运动 补偿 中 (< sw。 在 视频 编码 文献 中 光 (1y, o) ARTMA, 
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给 出 通常 用 于 运动 信 计 的 搜索 策略 。 采 几 不 同 的 运动 表示 和 估计 准则 的 特殊 的 运动 估计 策略 
将 在 后 续 各 节 中 进行 介绍 


Rhee + ar 


x 


后 向 运动 估计 





时 间 1 








if 
MY ar Al | 
i 








前 向 运动 估计 


ie : re 
;dwr “fs g : 


HER 
6.4 前 向 和 后 向 运动 估计 


6.2.1 运动 表示 


运动 佑 计 的 一 个 关键 的 问题 是 如 何 参数 化 运动 场 ， 刀 | 5.5 节 所 说 明 的 ,由 撤 像 机 或 物体 
还 动产 后 的 二 维 送 动 场 通常 可 以 用 很 少 几 个 参数 米 描 述 。 然 而 ,在 成 像 的 场景 中 一 般 有 多 个 
物体 做 不 辐 的 运动 ， 内 此 ,总 体 参数 模 起 通常 是 不 适合 的 ， 最 直接 和 不 受 约束 的 方法 是 在 竺 
个 像素 都 指定 和 运动 矢量 。 这 就 是 所 谓 基 于 像素 表示 法 。 这 种 表示 法 是 普遍 适用 的 ,但 是 它 需 
竖 佑 计 大 晤 的 本 知 时 (两 倍 于 像素 数 !) 并 且 它 的 解 时 常 在 物理 上 是 不 正确 的 ,除非 在 估计 过 程 
中 施加 适当 的 物理 约 末 。 另 -方面 , 若 仅 是 摄像 机 在 运动 ,或 者 成 像 景 物 包含 单个 的 共有 平坦 
表 庙 的 物体 ,我 们 可 以 用 整体 运动 表示 沁 来 描述 整个 运动 场 。- - 艇 对 于 包含 多 个 运动 物体 的 
景物 ,更 适当 的 方法 是 把 一 个 图 像 帧 分 成 多 个 区 域 , 使 得 在 每 个 区 域 中 的 运动 可 以 很 好 地 用 -- 
个 参数 化 模型 起 征 。 这 被 称 为 基于 区 域 运 动 表示 法 ?, 它 包括 -个 区 域 分 割 图 和 几 个 运动 参 
数 集 ,每 一 个 集 用 十 个 区 域 。 这 种 方法 的 困难 在 于 我 们 事先 并 不 知道 哪些 像素 具有 相同 的 
运动 。 因 此 ,分 割 和 估计 必须 用 迁 代 完成 ,这 需要 很 大 的 计算 二 ,实际 上 可 能 是 行 不 通 的 。 
降低 基于 区 域 运 劲 表示 法 的 复杂 性 的 “个 方法 是 把 网 像 域 图 定 分 割 成 许多 小 的 方块 。 只 
每 个 块 足 够 小 , 则 每 个 块 内 的 运动 变化 就 可 以 很 好 地 用 一 个 简单 的 模型 表征 ,同时 每 个 块 的 
运动 参数 可 以 独立 地 进行 估计 。 这 就 把 我 们 带 到 了 通常 的 基于 块 的 表示 法 。 在 每 一 个 块 中 模 
拟 化 运动 的 最 简单 撒 式 是 用 “个 常 其 位 移 , 从 而 使 估计 问题 变 成 为 每 一 个 块 找到 -个 运动 和 
BMV). 这 种 方法 在 精确 度 和 复杂 性 之 问 提供 了 一 个 很 好 的 折 中 ,并 且 已 经 在 实际 的 视频 编 
码 系 统 中 取得 了 大 的 成 功 。 基 于 块 的 方法 的 一 个 主 烃 问题 是 它 没有 在 相 临 块 的 运动 过 渡 上 






























































中” 这 有 和 时 称 为 基于 物体 运动 表示 法 [39:。 这 里 使 用 术语 “ 基 丁 区 城 "来 表明 这 样 -个 事实 ,我 们 只 性 熙 总 运动 ,而 
一 个 具有 相关 二 维 运动 的 区 域 不 一 定 对 应 于 一 个 物理 [的 物体 。 
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施加 任何 约束 。 即 使 真实 的 运动 场 从 一 个 块 到 另 一 个 块 是 平滑 变化 的 ,也 经 常 使 运动 在 块 的 
边界 出 现 不 连续 现象 。 克 服 这 种 问题 的 一 个 方法 是 用 基 十 网 格 的 表示 法 ,这 种 方法 是 把 图 像 
帧 分 割 成 互 不 重 亚 的 多 边 形 元 素 。 整 个 帧 的 送 动 场 只 用 节点 (多边形 元 素 的 角 点 ) 的 MV 表 
示 , 而 元 素 内 部 点 的 MV 用 节点 的 MY 内 捅 得 到 。 这 种 表示 法 包含 各 处 连续 的 运动 场 。 它 比 
基于 块 表示 法 更 适合 于 一 般 进 行 连续 运动 的 物体 内 部 区 域 ,但 是 它 不 能 捕捉 物体 边界 处 的 不 
连续 运动 。 更 精确 的 运动 估计 第 要 必要 时 人 允许 不 连续 的 自 适 应 策略 。 图 6.5 给 出 了 几 种 运动 
表示 法 撕 述 一 个 头 和 肩 场景 的 效果 。 在 下 面 几 节 中 ,我 们 将 介绍 用 不 同 运动 表示 法 进行 运动 
估计 的 方法 。 
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图 6.5 不 同 的 运动 硼 示 法 :(a) 整 体 ;(b) 基 于 像素 ;(e) 基 于 块 ;( 由 基于 区 域 
6.2.2 运动 估计 准则 


对 于 一 个 选 定 的 运动 模型 ,问题 是 如 何 估计 模型 参数 。 本 节 将 讨论 几 种 不 同 的 估计 模型 
参数 的 准则 。 

基于 位 移 帧 差 准则 ”最 常用 的 运动 估计 准则 是 锚 定 帧 y ， 与 目标 帧 y 。 之 间 每 个 对 应 点 对 
间 亮 度 值 之 差 的 和 。 回 忆 y ,中 的 x 移动 到 VW ; 中 的 w(x;a)。 因 此 目标 打数 可 以 写 为 ; 


Erm la) = 2, lY a(w(xsa)) ~ iGo]? (6.2.1) 


Et ARTY, 中 所 有 像素 的 集合 ,P 是 一 个 正 数 。 当 p = 1 时 , 上面 的 误差 称 为 平均 绝对 差 
(MAD) , 当 p =2 时 , 称 为 均 方差 (MSE)。 误 差 图 像 e(xia) =Y:(w(xia)) -V i (x) AERA 
移 帧 差 (DFD) 图 像 ,而 前 面 的 公式 用 于 测量 DFD 误差 。 











114 视频 处 理 与 通信 








使 Eomw 最 小 的 必要 条 件 是 它 的 梯度 等 于 鹤 。 在 p =2 的 情况 下 ,人 悄 度 是 


TE -SG (wa) -w a) "OD y yiwa) (6.2.2) 
ý act 
其 中 
ad, od ad," 
od | oa, Aa, Ja 
a |3d ad, ad, 
Ja, Fay Ja; 


基于 光 流 方程 准则 除了 使 DFD RARE LSE, Ih PE ERE EK 
(6.1. 3M CHEAT RETR. Oe Cry ah Cywair) t Cy tt do 
d, 很 小 .我 们 可 以 假设 (9y 130) dt =P (x) 4 (x). BARRO DWAR, 





Bd Od Vd) 20 (6.2.3) 





BX OIA DS BY SBOE REA ERT AA h. A PR AT MD xO a TT BL aD PA 
转换 为 个 具有 如 下 目标 项 数 的 最 小 化 的 问题 : 


Egla) = SOLOW (x) Aaa) + E(x) — WO)” (6.2.4) 


H p= UY, En AYABE A 


Ko 

Ja 

如 打 在 “个 小 的 区 咸 A' 肉 运动场 是 一 个 常 其 BD d(x;a) =d xE A’ ,那么 公式 (6.2.5) 就 
Dem: 


) 82° vy es) (6.2.5) 


= 20) ( (Vv) asa) + a(x) =O) 


YEN 


CRE = DVO + G8) = 00) VHD (6.2.6) 


H RRE We BERE do 的 最 小 平方 解 : 


& = (DV (VY)) (Zo (x) -Ya(x)) 有 Yo)) (6.2.7 


当 运 动 不 是 常量 ,但 与 模型 参数 有 线性 关系 时 ,我 们 仍 可 以 得 记 类 似 的 最 小 平方 解 (见习 题 
6.6). 

PRI — MARE, Yop = 2 时 最 小 化 函数 MY 的 二 次 函数 。 如 果 运 动 参数 关于 
MV 吓 线性 的 ， MARARA HE -的 最 小 值 , 计 用 容 易 求 解 ， 对 于 公式 (6.2.D 给 出 的 DFD iR 
益 来 说 许 个 是 这 样 。 然 而 , 仅 当 运动 很 小 或 者 当初 始 运动 估计 ax) 接 近 能 够 求 出 的 真实 的 运 
hist aie Ab 并 且 我 们 可 以 把 y ;(x ) 预 更 新 到 y (x+ q(x))。 当 不 是 这 种 情况 的 
时 候 ,最 好 应 用 DED 误差 准则 ,用 梯度 下 降 或 穷尽 搜索 法 寻找 最 小 解 。 
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正则 化 ”最 小 化 DFD 误差 或 解 光 流 方 穆 并 不 总 是 给 出 具有 物理 意义 的 运动 估计 - 部 分 
原 内 是 异 定 亮度 假设 不 总 是 正确 的 。 因 为 各 种 反射 和 阴影 效应 ,同一 个 物体 点 的 成 像 党 度 在 
物体 运动 后 可 能 发 和 后 变化。 第 二 个 原因 是 ,在 平面 纹 巢 的 区 域 ,许多 不 同 的 运动 估计 可 以 满足 
恒定 亮度 假设 或 光 流 方 程 。 最 后 ,如 果 运 动 参数 是 每 一 个 像素 的 MY . 光 流 方程 就 不 能 完全 约 
束 运 动 估量。 这 些 因 素 可 以 使 得 运动 估计 是 -个 病态 问题 。 

为 了 得 到 一 个 有 物理 意义 的 解 ,我 们 必须 施加 额外 的 约束 来 正则 化 这 个 问题 。 常 用 的 正 
则 化 方法 是 把 -个 代价 项 增加 到 公式 (6.2.1) 或 (6.2.4) 的 误差 丽 数 中 , 它 将 强制 产生 的 运动 
合计 支持 普通 运动 声 的 特性 。 一 般 返 动 场 的 一 个 众所周知 的 性 质 是 ,除了 在 物体 边 输 寻 , 它 通 
常 是 从 一 个 像素 到 - -个 像素 平滑 变化 的 。 为 了 强制 平 少 性 ,可 以 使 用 一 个 代价 项 来 测 明 令 近 
像素 MV 间 的 差 , 即 : 





Ela) = > >) l d(asa) - d(yya) l|? (6.2.8) 
hi 
其 中 小 RS, 代表 与 x HISD RIE. TEAR at oh A SRE, 

总 的 最 小 化 准则 可 以 写成 : 


E= Eom tw, E, (6.2.9) 


权 系 数 w, UET- AMRA RE E ARRENE RR. CME EK 
减 小 物体 边界 的 权 系 数 。 然 而 ,这 需要 精确 检测 物体 的 边界 ,这 不 是 一 项 简单 的 任务 。 

贝 叶 斯 准则 ” 贝 叶 斯 准则 是 基于 运动 估计 问题 的 概率 公式 , 它 是 由 Konrad 和 Dubois 首先 
提出 来 的 [22,381。 在 这 个 公式 下 ,给 定 -个 锚 定 帧 %，, 在 甘 标 帧 Yy ,的 图 像 症 数 被 认为 是 白 由 
场 时 的 一 个 实现 ,而 运动 场 d 是 务 -- 个 自由 场 D 的 - -个 实现 。 给 定 业 的 - -个 实现 和 ,, 应 用 由 
中 斯 准则 ,运动场 了 的 后 验 概率 分 布 可 以 殷 成 ; 














PCD = a1 =W = PPO ait PD = at) (6.2.10) 





CERT RAYE A FRR EA OEE EMEA A PUL aT HED A E EE E 
概率 达到 最 大 。 但 是 对 于 给 定 的 AY, ,使 概率 最 大 等 价 于 仅 使 分 子 达 到 最 大 。 央 此 a 的 
最 大 后 验 (MAP) 估 计 是 : 
dus = argmaxy | PIY =¥ 1D = dy 1) P(D =ds¥,)} (6.2.11) 
RTE ORE EO AE SE BNO. CERAM EAE a ANY, 
相应 于 DFD 图 像 e(x) =W: (x+ d) - 攻 1(x) 的 随机 场 , 则 ; 

















P(W=¥ ID =d;¥,) = P(E=e) 
公式 (6.2.11) 变 成 : 


yp = argmaxa | P(E = e) P(D = dW)! 


D 的 四 邻 域 包括 工 的 东南、 西北 四 个 相 令 的 像素 。 信 邻 域 又 增加 了 东北 ,东西 ,东南 和 西南 方向 上 的 四 不 像素 。 
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= argmin,| ~ logP(E = e) ~ logP (D = d3¥1)1 (6.2.12) 


第 8 RESTON URES IBIS HVERN] PR IB TSK ESE I -logP(X = x). 
我 们 中 以 看 到 ,MAP 估计 准则 等 价 十 使 DED KR e 与 运动 场 4 的 编码 长 度 的 和 为 最 小 。 将 在 第 
9 章 中 说 明 , 这 正 是 使 用 运动 补偿 预测 的 视频 编码 器 必须 编码 的 长 度 。 因 此 ,对 于 的 MAP 估计 
等 价 于 最 小 撒 述 长 度 (MDT) 估 计 L34]。 闷 为 在 视频 编码 中 运动 估计 的 日 的 是 使 码 率 达 到 最 小 ， 
所 以 MAP 准则 与 最 小 预测 误差 准则 相 比 是 一 个 较 好 的 选择 。 

DFD 图 像 最 常用 的 模型 是 零 均 值 独立 恒 等 分 布 的 (i. i. qd.) 高 斯 场 , 它 的 分 布 是 : 


一 Dea 
< 
其 中 1A1 代 表 A 的 大 小 ( 即 A 中 的 像素 数 )}。 使 用 这 个 模型 ,使 公式 (6.2.12) 中 的 第 一 项 为 最 
小 等 价 于 使 前 面 定义 的 DED 误差 (p =2 时 ) 为 最 小 。 

对 于 运动 场 刀 , 一 个 常用 的 模型 足 吉 布 斯 /马尔 可 去 自由 场 [11]。 这 个 模型 是 用 称 为 闭 
(eliaue) 的 邻 域 结构 定 义 的 。 令 C 代 表 团 的 集合 ,该 模型 假设 : 














P(E = e) = (2m0) "exp (6.2.13) 











P(D = d) = bel- x v.(a)) (6.2.14) 

















中 并 是 一 个 归 一 化 因子 。 函 数 VORAER., CARL AER — hd fe = 
的 差 ; 











v(a) = >) Tadatx) - dy) l? (6.2.15) 
nee 














人 在 这 个 模型 下 ,最 小 化 公式 (6.2-12) 中 的 第 二 项 等 价 于 最 小 化 公式 (6,2.8) 中 的 平滑 函数 。 
E, MAP 估计 等 价 于 具有 适当 平滑 约束 的 基于 DFD 的 估计 器 。 


6.2.3 优化 方法 


6.2.2 入 中 给 出 的 误差 画 数 ,可 以 用 各 种 优化 方法 进行 最 小 化 。 这 里 我 们 只 考虑 穷 忠 搜 
索 和 基于 梯度 搜索 方法 。 一 般 对 于 穷尽 搜索 , MAD 因为 计算 简单 而 被 采用 ,而 对 于 基于 梯度 
搜索 方法 ,采用 MSE 是 由 于 数学 上 易于 处 理 。 

显然 ,穷尽 搜索 法 的 优点 是 它 可 保证 达到 全 局 最 小 。 然 而 ,只 当 未 知 参数 的 数 月 很 小 ,并 
且 每 个 参数 只 取 一 个 有 限 离散 值 集合 时 ,这 种 搜索 才 是 可 行 的 。 为 了 减少 搜索 时 间 ,可 以 于 发 
达到 次 最 佳 解 的 各 种 快速 算法 。 

最 常用 的 梯度 下 降 法 包括 最 陡 梯 度 下 降 和 和 牛顿 -拉夫 森 方法 (这 种 方法 --. 个 简单 的 回顾 
在 附录 B 给 出 )。 基 于 梯度 的 方法 能 够 处 理 高 维 连续 空间 的 未 知 参数 。 然 而 , 它 只 保证 收敛 
到 局 部 最 小 。 前 一 节 介绍 的 谋 差 函数 一 般 不 是 御 的 ,从 而 可 以 具有 许多 远离 全 局 最 小 的 局 部 
景 小。 因此 ,重要 的 是 通过 使 用 先 验 知识 获得 一 个 好 的 初始 解 ,或 加 入 一 个 代价 项 使 误差 函数 
变 成 是 的 。 

对 于 基于 梯度 的 力 法 ,必须 计算 信号 的 时 空 梯度 。 附 录 A 回顾 了 由 数字 采样 图 像 计算 一 
阶 和 二 阶梯 度 的 方法 。 注 意 , 如 Barron, Fleet 和 Beauchemin 所 指出 的 那样 [4], 用 十 计算 梯度 函 
数 的 方法 对 于 有 关 的 运动 估计 方法 的 精确 性 和 健壮 性 有 着 深刻 的 影响 。 使 用 高 斯 预 滤波 器 后 
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接 一 个 中 心 差分 -一般 会 产生 比 简 单 的 两 点 差分 近似 好 得 多 的 结果 。 

一 种 重要 的 搜索 策略 是 使 用 运动 场 的 多 分 辩 率 表示 ,并 吕 以 分 层 的 方式 进行 搜索 。 基 本 
思想 是 首先 用 粗 精 度 搜索 运动 参数 ,把 这 个 解 波及 到 一 个 较 细 的 分 辨 率 ,然后 以 这 个 较 细 的 分 
状 率 优化 这 个 解 。 它 可 以 克服 穷尽 搜索 法 的 缓慢 性 和 基于 梯度 法 的 非 最 优化 。 我 们 将 在 6.9 
节 中 详细 地 介绍 多 分 辩 率 方法 。 


6.3 基于 像素 的 运动 估计 


在 基于 像素 的 运动 估计 中 ,必须 估计 每 一 个 像素 的 MV。 显 然 ,这 个 问题 是 难于 处 理 的 。 
如 果 使 用 恒定 亮度 假设 ,对 于 氏 定 帧 的 每 一 个 像素 ,在 目标 帧 里 将 会 有 许多 具有 完全 相同 亮度 
的 像 索 。 如 果 使 用 光 流 方程 ,这 个 问题 仍然 是 不 确定 的 ,因为 两 个 未 知 数 只 有 一 个 方程 。 为 了 
防止 这 个 问题 发 生 ,一般 有 四 种 方法 :第 一 ,可 以 使 用 正则 化 技术 在 运动 场 上 施加 平滑 约 东 ,使 
得 新 像素 的 MV 受 周围 像素 的 已 找到 的 那些 MY 的 约束 。 第 二 ,可 以 假定 每 一 个 像素 周围 邻 
域 中 的 MY 是 相同 的 ,并 且 把 恒定 亮度 假设 或 光 流 方程 应 用 到 整个 邻 域 。 第 三 ,可 以 利用 另外 
一 些 不 变量 约束 ; 除 导致 光 流 方程 的 亮度 不 变量 之 外 ,我 们 可 以 假设 运动 中 的 亮度 梯度 是 不 变 
的 ,如 在 参考 文献 [29,26,15] 中 提出 的 。 最 后 ,可 以 利用 运动 前 后 幢 的 相位 函数 之 间 的 关系 
[9]。 在 参考 文献 [4] 中 , Barron, Fleet 和 Beauchemin 评价 了 各 种 光 流 计算 方法 ,在 合成 图 像 和 真 
实 世 界 的 图 像 上 试验 了 这 些 算法 。 这 一 节 只 描述 前 两 种 方法 。 我 们 也 介绍 为 视频 压缩 应 用 而 
开发 的 像素 递归 型 算法 。 


6.3.1 用 运动 平滑 约束 正则 化 


Hom 和 Schunck[16] 提 出 了 通过 最 小 化 如 下 的 目标 函数 来 估计 运动 矢量 ,这 个 月 标 函数 中 
基于 流 的 准则 与 运动 平滑 性 准则 的 联合 : 














































































































EOOD = (Fon + e rl Va MA vl) 6.3.1) 
在 他 们 最 初 的 算法 中 ,空间 梯度 v。 Hv, 是 由 Vo =[ 2, (x,7)-0,(2- Ly), (x,y) -oly 
Ve, = [oC%,7) -bo (ey) xy 1 7 近似 的 。 这 个 误差 函数 的 最 小 化 是 通过 称 为 
高 斯 -斯 德尔 法 的 基于 梯度 的 方法 实现 的 。 

Nagle 和 Enkelmann 对 运动 估计 平滑 约束 的 效果 做 出 了 一 个 全 面 的 评价 [30]。 为 了 避免 运 
动 场 的 过 平滑 ,Nagel 建议 了 一 个 定向 平滑 性 约束 ,在 这 种 方法 中 ,平滑 性 是 沿 着 物体 边界 而 不 
是 穿越 边界 施加 的 【29]。 这 使 运动 估计 的 精度 有 显著 的 提高 [4]。 


6.3.2 使 用 多 点 邻 域 
在 这 种 方法 中 , 当 估计 像素 x, 的 MV 时 ,我 们 假定 x, 周围 的 一 个 邻 域 8(x, ) 内 的 所 有 像 
素 的 MV 都 是 相同 的 ,用 d, 表示 。 为 了 确定 d ,我 们 既 可 以 最 小 化 8(x, ) 上 的 预测 误差 ,又 可 


以 用 最 小 平方 法 解 光 流 方程 。 这 里 我 们 介绍 第 一 种 方法 。 为 了 估计 d, ,我 们 最 小 化 8(x, ) E 
的 DFD 误 差 : 
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Bd) = 5 NY win) Way + a) -CD (6.3.2) 


xe hla? 


THD) jw(x) 是 分 配给 像素 x 的 权 值 ( - 般 权 值 随 x 到 x, FSR UTD). 
KF d, 的 梯度 是 : 





av. 


ox laa, 


(6.3.3) 





ged) = sa = D voed) 


TE" elx, d, )=Wa(x+d,) -Yi (x) Efe x AAi d, 的 DFD。 今 出? 代表 第 1 次 选 代 的 估 
iP ABA IST BBE FRR E AF PE: 
at? 2d - agi") (6.3.4) 


Hy HR C6.3. 3), AKRE ACL 上 企 各 个 像素 处 图 像 梯度 的 和 .这些 梯度 以 在 这 些 像 
素 处 的 加 要 的 DFD 值 为 比例 因子 进行 缩放 。 
我 们 也 可 以 用 个 顿 - 拉 大 琳 方法 导出 一 个 欠 代 算法 。 由 公式 (6.3.3) AUPE: 


wa, eA) EE 














inca] = 28 = S w(x) 


od, eta, 


(982) | 
?2 人 2] r 


ax ax (6.3.5) 





= X, w(x) 
xe BG) wd, 


JPEN ART Bk ILI BY H: 
da" 2a? — of H(a”) |] g(a?) (6.3.5) 


RAPRA- -EBRE PESACH (BRE Re ER. 

BRT PEAT HEEK ERRE Sb Lf LA FSS RERI AR d, ,得 到 在 个 给 定 搜 
RPA REME. EESTE 6.4.1 节 将 要 介绍 的 穷尽 其 匹 配 算法 。 不 同 的 是 这 里 所 使 用 
的 邻 成 是 - -个 滑动 锁 11 ,得 个 像素 的 MY 由 最 小 化 其 邻 域内 的 误 盖 决定 ;- - 般 来 说 邻 域 不 一 定 
是 MBER. 


6.3.3 像素 递归 方法 


在 使 用 运动 补偿 预测 的 视频 编码 中 ,我 们 必须 指定 MY 和 DED 图 像 。 对 于 基于 像素 运动 
RR MEA “个 像素 指定 一 个 MV, 这 是 很 昂贵 的 。 在 像素 递归 运动 估计 算法 中 ,MV 是 递 
由 得 出 的 。 特 别 地 ,当前 像素 的 MV 是 向 在 此 之 前 已 经 编码 的 邻近 像 罕 的 MV 更 新 的 。 根 据 
同样 的 更 新 规则 .解码 器 也 可 以 导出 同样 的 MY ,从 而 MY 不 必 编 码 。 已 经 开发 出 各 种 这 样 的 
算法 ,它们 的 更 新 规则 都 按照 统 -. 类 击 的 梯度 下 降 法 [31] 。 

尽管 像素 递归 方法 非常 简单 ,但 它们 的 运动 估计 精度 相当 低 。 结 果 是 ,预测 的 误差 仍 很 
大 ,而 用 需要 相当 多 的 编码 比特 。 因 为 这 种 方法 的 简单 性 ,所 以 它们 用 在 较 早 几 代 的 视频 编 解 
码 器 小 。 现 今 的 编 解码 器 使 用 更 加 复杂 的 运动 合计 算法 ,它们 能 在 用 丁 指定 My 和 DED BHR 
的 比特 之 间 提 供 较 好 的 平衡 ;地 常 用 的 是 下 一 告 介绍 的 块 瑟 本 算法。 
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6.4 块 匹 配 算法 


止 如 我 们 所 看 到 的 ,基于 像素 运动 估计 所 人 存在 的 问题 是 ,我 们 必须 施加 平滑 约束 以 使 问题 
正则 化 。 在 已 估计 的 运动 场 上 施加 平滑 约束 的 -… 种 方法 是 把 图 像 域 分 割 成 互相 不 重要 的 称 为 
艾 的 小 区 域 ,并 且 假 定 每 一 个 块 内 的 运动 都 可 以 用 - -个 简单 的 参数 模型 (例如 恒定 、 仿 射 和 双 
线性 模型 ) 特 征 化 。 如 果 块 足够 小 ,都 么 这 种 异型 是 相当 精确 的 ， 这 - - 节 中 我 们 介绍 用 这 个 基 
二 块 的 运动 表示 开发 出 的 运动 估计 算法 。 今 8B, 代表 第 m 个 图 像 块 , M 代表 块 的 数 日 ,并 且 
M = |1,2,…, 对 时 块 的 分 割 应 该 满足 : 


B, = Ba 1B, = 
bd Ba = As 28,2 Oman 


Hie E.-MET UAT EMS IR, TSR LLP SEE Ce Ae 
PER, C EROE HF H EAA Bh LE pT RHR) 

在 最 简单 的 情况 下 ,每 一 个 块 中 的 运动 被 假定 是 恒定 的 , 即 整个 块 进行 平移 。 这 称 为 块 平 
移 模 坦 。 在 这 一 节 中 ,我 们 内 考虑 这 种 简单 的 情况 ,此 时 运动 估计 问题 是 为 得 个 块 寻 找 一 个 
MV。 这 种 类 型 的 算法 被 共同 地 称 为 块 虹 配 算法 (BMA)》。 在 下 一 节 中 ,我 们 将 考虑 较 一 般 的 傅 
况 , 此 时 每 一 个 块 中 的 运动 用 一 个 较 复 杂 的 模型 来 表征 。 


6.4.1 穷尽 块 匹配 算法 

在 锚 定 帧 8S。 中 给 定 一 个 图 像 块 ,此 时 的 运动 估计 问题 是 在 目标 帧 中 确定 一 个 应 配 块 B',， 
使 得 这 晤 个 次 之 问 的 误差 为 最 小 ， 这 两 个 块 的 空间 位 置 (用 中 心 或 一 个 选 定 的 角 表 未 ) 之 间 的 
位 移 矢量 dn 是 这 个 块 的 MV。 在 块 平移 模型 下 ,w(xia) = x + du ,xE8, ,在 公式 (6.2.1) 中 的 
误差 可 以 写成 ， 
























































F(d,,¥meM)= >) 2 Palada) ow x) P (6.4.1) 
me Mat m 
因为 对 于 -PRAA MY PURI SR RU RSE, HARTAT ERRE 
BRR ZERO Taat MV, BD 
Fd) Ba 1 Wort da) -D ia (6.4.2) 
确定 使 这 个 误差 为 最 小 的 da 的 一 种 方法 是 使 用 穷尽 搜索 ,这 种 方法 被 称 为 穷尽 块 匹 配 
算法 (EBMA)。 如 图 6.6 所 示 ,EBMA 为 钳 定 帧 的 一 个 给 定 块 B。 傅 定 最 优 d, 的 方法 是 , 覃 一 
个 预先 定义 的 捷 索 区 域内 ,把 它 与 昌 栋 帧 中 所 有 的 候选 块 8; 进行 比较 ,并 日 寻找 具有 最 小 误 
莽 的 一 个 。 这 两 个 块 之 闻 的 位 移 就 是 所 售 计 的 MV。 
为 了 减 小 计算 量 , 经 常 使 用 MAD 误差 (p = ])。 搜 索 的 区 域 一 般 是 关于 当前 块 对 称 的 , 左 
边 和 右边 各 有 R 个 像素 ,上 边 和 下 边 各 有 R, 个 像素 ,如 图 所 示 。 如 果 已 知 在 水 平和 重 雪 方 
向 运动 的 动态 范围 是 相同 的 ,那么 R, = R, = R。 估 计 的 精度 是 由 搜索 的 步 长 决定 的 , 步 氏 是 
相 临 两 个 候选 块 在 水 平 或 者 垂直 方向 上 的 虑 离 。 通 常 . 沿 着 两 个 方向 使 用 相同 的 步 长。 在 最 
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简单 的 情况 下 , 步 长 是 一 个 像素 , 称 为 整数 像素 精度 搜索 。 

令 块 的 大 小 是 N x N 像素 ,搜索 范围 在 水 平和 垂直 方向 上 都 是 上 只 像素 ( 见 图 6.6)。 对 
于 一 个 像素 的 步 长 , 锚 定 帧 的 每 一 个 块 的 候选 匹配 块 的 总 数 是 (2R + 1》。 令 一 次 运算 定义 为 
包括 一 次 减法 、 一 次 绝对 值 运算 和 一 次 加 法 。 计 算 每 一 个 候选 估计 的 MAD 的 运算 数 是 Mo 
这 样 ,估计 每 一 个 块 的 MV 的 运算 数 是 (2R + 1) NY 。 一 个 大 小 为 Mx MR CEN)? 个 
块 (假定 MEN 的 倍数 )。 那 么 全 部 一 帧 的 总 运算 数 是 M OR + 1)*。 有 趣 的 是 要 注意 总 的 计 
算 量 不 依赖 于 块 的 大 小 No 
































图 6.6 穷尽 块 匹配 算法 的 搜索 过 程 


举 一 个 例子 ,考虑 M =512,N = 16, R= 16 的 情况 :每 一 帧 的 总 运算 数 是 2.85 x 10。 对 于 
一 个 帧 认为 30 fps 的 视频 序列 来 说 ,每 秒 需要 的 运算 数 就 是 8.55 x 10 ,一 个 惊人 的 数字 ! 这 
个 例子 表明 EBMA 需要 庞大 的 计算 ,这 就 造成 了 对 于 需要 纯 软 件 应 用 场合 的 挑战 。 因 为 这 个 
问题 ,开发 出 了 各 种 快速 算法 ,用 牺 竹 估计 精度 来 降低 计算 量 。 在 6.4.3 节 中 给 出 了 一 些 快速 
算法 。EBMA 的 一 个 优点 是 它 可 以 用 简单 的 和 模块 化 设计 的 硬件 实现 ,而 且 用 并 行 的 多 个 模 
块 可 以 提高 速度 。 许 多 研究 致力 于 用 VLSI 芯片 高 效 地 实现 EBMA, 有 时 涉及 到 对 篇 法 进行 稍 
微 的 修改 ,牺牲 一 些 精 度 以 降低 计算 量 、 存 俯 器 空间 和 存储 器 访问 时 间 。 关 于 实现 EBMA 和 其 
他 快速 块 匹 配 算法 的 VLSI 结构 的 一 个 综述 , 见 参 考 文献 [21,32,14]。 


6.4.2 分 数 精度 搜索 


正如 已 经 提示 的 ,在 BMA 中 搜索 相应 块 的 步 长 不 一 定 是 一 个 整数 。 为 了 更 精确 的 运动 表 
示 , 需 要 分 数 像素 精度 。 使 用 分 数 步 长 的 一 个 问题 是 对 于 锚 定 帧 里 给 定 的 一 个 采样 点 ,在 目标 
帧 里 可 能 没有 相应 的 采样 点 一 一 这 些 样 点 必须 由 可 利用 的 样 点 内 播 得 到 。 通 常用 双 线 性 内 揪 
达到 这 个 目的 。 一 般 ,为 了 实现 1/K 像素 步 长 ,目标 帧 必须 先进 行 K 售 内 插 。 图 6.7 给 出 了 
K= 的 例子 , 它 称 为 半 像 素 精 度 搜索 。 已 经 证 明 , 与 整数 像素 精度 搜索 相 比 , 半 像 素 精度 搜索 
在 估计 精度 上 有 很 大 的 提高 ,特别 是 对 于 低 清晰 度 视频 。 

这 里 自然 产生 的 一 个 间 题 是 对 于 运动 舍 计 合适 的 搜索 步 长 是 多 少 。 显 然 , 它 依赖 于 所 信 
计 的 运动 矢量 的 应 用 场合 。 对 于 视频 编码 ,估计 的 运动 用 于 由 以 前 已 编码 的 帧 (目标 帧 ) 预 测 
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当前 帧 ( 错 定 桢 ) , 它 是 应 该 最 小 化 的 预测 误差 图 像 ( 即 DFP 图 像 ) ， 预 测 误 差 和 搜索 精度 间 的 
关系 的 统计 分 析 已 经 由 Ciod 12] 考 坊 了 ,并 将 在 第 9 章 中 给 出 。 
显然 ,应 用 分 数 像素 步 长 , EBMA 的 复杂 性 进一步 增加 了 。 例 如 ,使 
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像素 搜索 ,搜索 点 






























































的 总 数 四 倍 于 整数 像素 精度 搜索 。 考 虑 到 内 捅 目标 帧 所 需 的 额外 计算 量 , 总 的 复杂 人 性 要 大 于 
四 倍 。 
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图 6.7 半 像 素 精度 块 匹 配 。 实 心 圆 是 目标 帧 存在 的 采样 点 ,空心 国 是 为 计算 匹 
配 误差 对 于 候选 MY au = ( -1, - 1.5) 所 要 内 搬 的 样 点 。 其 换 要 求 为 每 
一 个 候选 MY 计算 这 些 样 点 ,一 个 更 好 的 办 法 是 对 整个 目标 帧 进行 预 内 揪 


例 6.1 图 6.8(e) 示 出 了 对 于 图 6.8(a~ b) 给 出 的 两 帧 ,用 半 像 素 EBMA 算法 估计 的 运动 场 。 
图 6.8(d) 示 出 了 基于 估计 的 运动 而 预测 的 锚 定 帧 ,这 是 通过 用 目标 帧 中 的 最 住 匹配 块 蔡 
换 祥 锚 定 帧 中 的 每 一 块 得 到 的 。 图 像 的 大 小 是 352 x 288, 块 的 大 小 是 16x 16。 我 们 可 以 
看 到 大 量 的 块 被 精确 预测 ;然而 ,也 有 不 能 很 好 预测 的 块 。 一 些 这 样 的 块 中 存在 非 平移 的 
运动 ,如 那些 覆盖 眼睛 和 嘴 的 块 。 其 他 的 块 既 包括 前 景物 体 又 包括 背 景 ,而 只 有 前 景物 体 
在 运动 。 也 有 一 些 块 ,其 图 像 亮 度 的 变化 是 由 于 头 部 转动 时 ,反射 图 形 的 变化 引起 的 。 这 
些 块 的 运动 变化 不 能 用 恒定 的 MV 很 好 地 近似 ,并 且 EBMA 算法 简单 地 识别 那些 在 目标 
燥 中 与 锚 定 帧 中 给 定 的 块 具有 最 小 绝对 误差 的 决 。 而 且 , 预 测 的 图 像 在 某 些 块 的 边界 处 
是 不 连续 的 ,这 就 是 通常 EBMA 算法 所 具有 的 块 效应 。 这 种 效应 是 由 块 平 萝 模型 的 固有 
限制 ,以 及 一 个 块 的 MV 独立 于 它 的 邻 块 的 MV 所 造成 的 。 

预测 图 像 和 原始 图 像 之 间 的 精度 一 般 是 用 PSNR 测量 的 ,如 前 面 公式 {1.5.6) 所 定义 
的 。 由 半 像 素 EBMA 预测 的 图 像 的 PSNR 为 29.86 dB。 对 于 整数 像素 EBMA, 得 到 的 预测 
图 像 视觉 上 很 相似 ,尽管 PSNR 稍微 低 一 些 。 


6.4.3 快速 算法 


正如 上 面 已 经 说 明 的 ,EBMA 需要 很 大 的 计算 量 。 为 了 加 速 搜索 ,已 经 开发 出 各 种 抉 匹配 
快速 算法 。 碱 少 计算 的 关键 是 降低 搜索 候选 块 的 数量 。 如 前 所 述 ,对 于 +R 的 搜索 区 域 和 一 
个 像素 的 步 长 ,EBMA 候选 块 的 总 数 是 (2R + 1)*。 各 种 快速 算法 的 不 同 在 于 它们 跳 过 那些 不 
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灰 可 能 有 小 误差 的 候选 块 。 
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图 6.8 运动 估计 结果 的 例子 :(a) EERW; (Cb) HREM Cc ~ d) 运 动 场 和 用 半 像 素 精度 的 EBMA 
得 到 的 销 定 帧 的 预测 图 像 (PSNR = 29.86 dB); (e ~ NESA (A EAE BIRO EE 
阅 格 表示 ) 和 用 基于 网 格 运 动 估计 方法 [43] 得 到 的 陋 测 图 像 (PSNR = 29.72dB) 














二 维 对 数 搜索 法 一 个 常用 的 快速 算法 是 二 维 对 数 搜索 [191, 如 图 6.9 所 示 。 它 是 从 相应 
于 零 位 移 的 位 置 开 始 搜索 的 。 每 一 步 试验 菱形 排列 的 五 个 搜索 点 。 下 一 步 ,把 中 心 移 到 前 一 步 
找到 的 最 佳 号 配点 并 重复 萎 形 搜索 。 当 最 住 匹配 点 是 中 心 点 或 是 在 最 大 搜索 区 域 的 边界 上 时 ， 
就 碱 小 搜索 步 长 ( 蓉 形 的 半径 )。 否 则 步 长 保持 不 变 。 当 步 长 城 小 到 一 个 像素 时 ,就 到 达 了 最 后 
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一 步 ,并 有 旦 在 这 最 后 一 步 检 验 九 个 搜索 点 。 初 始 搜索 步 长 一 般 设 定 为 最 大 搜索 区 域 的 . 半 。 
这 种 方法 ,我 们 不 能 顶 先 确 定 搜索 步 数 和 搜索 点 的 总 数 ,因为 这 些 依 粮 于 实际 的 MV。 但 是 最 好 


情 帝 ( 需 要 最 少数 日 的 搜索 点 ) 和 最 坏 情 况 ( 需 要 最 大 数 
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时 表 朱 第 " 步 的 搜索 点 


图 6.9 二 维 对 数据 索 法。 有 目标 巾 的 搜索 点 是 相对 于 锚 定 帧 的 一 个 块 中 心 (i, 门 示 出 的 。 在 这 个 

例子 中 ,1~5 步 中 的 最 佳 匹配 MY 是 (0,27,(0,4),(2,4),(2,6) 和 (2,6) .最 终 的 MV 是 (2,6) 
SPREE P 种 常用 的 快速 算法 是 三 步 搜索 法 [20]。 如 图 6.10 所 示 , 这 种 搜索 的 步 

长 从 等 于 或 者 略 大 于 最 大 搜索 范围 的 一 半 半 始 ， 在 每 一 步 中 ,比较 九 个 搜索 点 。 它 们 包括 搜 














索 正 方形 的 中 心 点 和 八 个 位 于 搜索 





区 边界 上 的 搜索 点 ， 




















每 一 步 以 后 搜索 步 氏 减 小 一 半 , 至 搜 


索 步 长 为 一 个 像素 时 搜索 结束 。 在 每 一 个 新 的 搜索 步 中 ,搜索 中 心 点 移 到 由 前 一 步 得 到 的 最 


EMRA. $ Ry 代表 初 好 搜索 步 长 ,那么 最 多 有 L= | log Ry + 1 | 个 搜索 步 ,这 里 | | He 


表 * 的 向 下 取 整 。 如 果 Ry = R2, 郑 么 = | lowe |。 除 了 在 一 开始 需要 检 
内 此 ,总 的 搜索 点 数 为 85 + 1。 例 如 ,对 


在 每 一 个 搜索 步 中 ,都 搜索 八 个 点 。 





验 九 个 点 以 外 。 
搜索 范围 R= 


32, ERMA 的 总 搜索 点 数 是 4225, 而 对 于 三 步 法 ,点 数 降 到 41 ,节约 倍数 超过 100。 与 二 维 对 数 


搜索 法 不 同 ,三 步 搜索 法 具 和 - Ah 


规 的 结构 。 这 些 特点 使 三 步 搜索 法 


定 的 可 以 预知 的 搜索 步 数 和 搜索 点 数 。 此 外 , 它 具有 较 正 
二 维 对 数 法 以 及 其 些 其 他 快速 算法 更 适 了 








F VLSI 的 实现 。 


快速 算法 的 比较 X61 比较 了 三 种 不 同 搜索 算法 所 需要 的 最 小 和 最 大 搜索 点 数 以 及 搜 
索 步 数 。 可 以 看 出 ,- - 些 算法 具有 较 正 规 的 结构 ,从 而 具有 站 定 的 计算 数 ,而 另 一 些 算法 具有 
很 不 相同 的 最 好 情况 和 最 坏 情况 的 计算 数 。 对 于 VLSI 实现 ,结构 的 正规 化 是 很 重要 的 ,而 对 





于 软件 实现 ,平均 情况 的 复杂 性 (一 般 接近 于 





快速 算法 二 





最 好 的 情况 ) 基 更 重 娄 的 。 关 了 
VLSI 电路 实现 的 复杂 性 和 成 本 的 分 析 见 参考 文献 [14] 。 
前 面 的 讨论 假定 搜索 精度 是 整数 像素 的 。 为 了 达到 








这些 和 其 他 一 些 


像素 精度 ,我 们 可 以 在 任何 快速 算 


法 中 加 入 最 后 一 步 ,在 整数 像素 搜索 找到 的 最 佳 号 配点 的 +1 个 像素 的 邻 域内 以 半 像 素 步 长 


进行 搜索 。 
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图 6.10 ”三 步 搜索 法 。 在 这 个 例子 中 ,1 ~ 3 ABARAT IGA MV 是 (3,3),(3.5).(2,6) ,最终 的 My 是 (2.6) 
R61 快速 搜索 算法 的 比较 [有 = 了 7) 
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6.4.4 施加 运动 平滑 性 约束 


TPA 6.8(e) 可 以 看 到 ,用 EBMA 获得 的 运动 场 是 相当 混乱 的 。 这 昆 因为 没有 对 块 MY 的 
空间 变化 施加 任何 约束 ,已 经 提出 了 几 个 平滑 估计 的 运动 场 的 方法 ,使 其 比较 接近 物理 的 运 
劲 场 。 一 种 有 效 的 途径 尾 使 用 多 分 辩 率 方法 , 它 首先 用 粗 空间 分 辨 率 估计 MV, 然 后 不 断 地 以 
相继 较 精 组 的 分 辩 率 优化 MV MV 由 较 粗 分 辨认 向 较 细 分 关 率 的 过 渡 必 由 访 间 内 插 完 成 的 ， 
它 使 产生 的 运动 场 具有 “- 定 程度 的 空间 连续 性 (这 个 技术 将 在 6.9 节 中 进行 更 加 详细 的 讨 
论 )。 另 -种 方法 是 明确 地 施加 个 平 清 性 约束 ,把 一 个 平 洛 项 加 到 测量 相 邻 抉 的 MV 变化 的 
公式 (6.4.2) 的 误差 准则 中 。 除 了 运动 矢量 是 定义 在 块 上 和 硕 测 误差 需要 在 块 上 求 和 以 外 , 产 
生 的 总 的 误差 丽 数 将 类 似 于 公式 (6.2.9)。 难 题 足 确定 预测 误差 项 与 平滑 项 之 间 适 当 的 权重 ， 
使 得 到 的 运动 场 不 至 于 过 平 潮 。 理 想 情况 下 ,加 权 应 该 是 月 适应 的 ;在 接近 物体 边界 时 不 应 使 
用 。 “个 更 内 难 的 任务 是 确定 物体 的 边界 ,在 那里 应 允许 运动 的 不 连续 。 


6.4.5 相位 相关 法 
除了 最小 化 DED 以 外 ,另外 一 种 运动 估计 的 方法 是 识别 相位 相关 函数 中 的 峰值 。 假 定 两 











* 。 标 有 果 吕 的 节 可 以 跳 过 或 者 留待 进 - 步 研究 。 
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个 图 像 巅 是 纯 平移 的 关系 ,那么 : 














Ww s(x) =¥2(x+4) (6.4.3) 
i gH A Eo A Ee I ATTA 
WiC) = WD em (6.4.4) 


(x) FW OZA AER: 
WDE pr 
SO -Tp si 
Joh AE RREI. BONS BLT ERSP HE ASR AEC PCE), 


PCF(x) =F ~'|G(f)} = 8(x4+ 4) (6.4.6) 
我 们 看 到 两 个 互 为 平移 的 图 像 的 PCF Eh RR, MR PEE EF AR DP 
位 置 。 通 过 确定 PCF 的 峰值 位 置 , 可 以 估计 两 个 图 像 之 间 的 平移 。 这 个 方法 首先 是 由 Koglin 
[23] 为 图 像 配 准 所 使 用 的 。 

前 面 的 推导 假定 图 像 在 空间 连续 并 且 是 无 限 大 小 的 。 然 而 ,实际 的 图 像 信号 是 离散 的 和 
有 限 的 。 实 际 上 ,在 可 利用 的 图 像 域 应 用 DSFT ,相当 于 CSET 在 无 限 图 像 域 上 周期 性 扩展 ,而 
CSFT 在 给 定 的 图 像 域 外 为 零 ( 见 2.1 节 及 2.2 节 )。 为 了 抑制 由 于 采样 造成 的 温 秋 效应 ,在 计 
算 公 式 (6.4.5) 时 经 常 使 用 频率 域 加 权 函 数 四 {D( 在 参考 文献 [13] 中 ,使 用 < =0.2 的 凯 塞 窗 
作为 加权 郑 数 )。 为 了 减 小 边界 采样 效应 ,在 计算 DSFT 之 前 ,也 可 以 对 Cx) AY 2 (x) BF 
个 空间 域 加 权 函 数 w(x)。 

上 述 相位 相关 法 广泛 应 用 于 图 像 配 准 ,这 时 全 部 图 像 者 必须 对 准 [33] ,{i0]。 对 于 运动 估 
计 , 两 幅 图 像 一 般 不 是 总 体位 移 的 关系 。 为 了 处 置 这 种 情况 ,相位 相关 函数 经 常 应 用 在 块 级 。 
对 于 大 小 为 Nx N 且 不 相 重 释 的 块 的 运动 估计 ,两 个 周一 般 都 分 割 为 Lx 工大 小 的 不 重 秋 的 
区 域 块 。 对 于 土 RR 的 搜索 区 域 ,区 域 块 的 尺寸 应 该 为 工 > 六 + 2R。 为 了 确定 Y,(x) 中 块 的 
MYV ,将 一 个 尺寸 为 工 x 工 的 离散 傅 里 叶 变换 (DFT) 应 用 于 这 个 块 和 在 yxz(xz) 中 与 它 相 应 的 块 。 
然后 用 相同 尺寸 的 道 DFT 计算 PCF, 并 确定 峰值 的 位 置 。 为 了 应 用 快 速 傅 里 叶 变 换 (FFT) 算 
法 江 一 般 选 为 2 的 圭 。 例 如 , 若 N=16,R= 16,0 L=6 是 合适 的 。 

这 种 方法 假定 相应 的 两 个 区 域 块 之 问 有 一 个 总 体 平移 。 对 于 一 般 的 视频 序列 这 个 假定 不 
成 立 。 当 在 Y ,(x) 的 区 域 块 中 有 几 个 进行 不 同 运动 的 小 块 时 ,我 们 将 在 PCF 中 看 到 几 个 峰值 。 
每 个 蜂 值 对 应 于 一 个 小 块 的 运动 。 峰 值 的 位 置 指示 该 块 的 MV, 而 峰值 的 幅度 正比 于 小 块 的 
大 小 [40]。 在 这 个 意义 上 ,PCF 揭示 了 与 央 上 MV 的 直方 图 类 似 的 信息 。 为 了 估计 块 中 起 支 
配 作用 的 MYV ,我 们 首先 提取 PCF 的 局 部 极 大 值 。 然 后 检测 相应 的 MV 的 DFD, PÆ feh DFD 
的 MV 将 被 认为 是 该 块 的 WV。 由 于 只 有 少量 的 候选 MV 被 检测 , 与 全 搜索 方法 相 比 ,可 以 显 
著 降 低 计算 复杂 性 。 

这 种 方法 可 以 扩展 到 分 数 像素 精度 的 运动 估计 。 在 参考 文献 [13] 中 ,通过 改变 候选 运动 
矢量 的 长 度 到 + 1 个 像素 .整数 像素 候选 运动 矢 殿 被 增 大 了 。 在 参考 文献 [371 和 [40] 中 提出 
了 其 他 的 方法 。 


(6.4.5) 
























































































































































名 ”这 个 名 称 来 自 这 样 的 事实 : 它 是 函数 几 VRY (x} 的 相位 部 分 的 互相 关 。 
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几 十 运动 估计 的 相位 相关 法 的 优点 是 它 对 亮度 的 变化 不 壬 感 ( 见 5.2 节 )。 这 是 因为 图 像 
均值 的 变化 ,或 者 图 像 乘 以 一 个 常数 .并 不 影响 相位 信息 。 对 某 于 DFD 的 方法 这 就 不 成 立 了 。 
6.4.6 二 进 制 特征 匹配 、 

华 这 种 所 请 分 层 特征 匹配 运动 估计 策略 (HFM-ME)[25 | 中 , 与 用 于 传统 块 匹配 方法 中 的 像 
素 亮度 值 相对 应 ,定义 了 符号 截断 特征 (SIF) 并 应用 于 其 匹配 ， 应 用 STE 定义 ,数据 块 用 一 -个 
均值 和 ' 个 二 进 制 比特 图 霄 表示 。 鼎 匹配 运动 个 计 被 分 解 为 均值 丐 配 和 二 进 制 相位 匹配 。 5 
EBMA 相 比 ,这 个 技术 使 计算 的 复杂 度 显 昔 降低 ,内 为 -二进制 相位 匹配 只 涉及 布尔 逻辑 运算 。 
使 用 STF 也 总 著 减 少 了 帧 缓冲 汰 和 运动 估计 器 之 间 的 数据 传送 时 间 。 实验 表明 在 同样 的 搜索 
区 域 下 ,TIFM-ME 可 以 达到 类 似 于 EBMA 的 预 浏 精度 , 亿 它 的 实现 可 以 快 约 64 信 。 当 TIFM-ME 
的 搜索 区 域 加 倍 时 , 它 比 EBMA 的 预测 更 加 精确 ,同时 伟 具 有 可 观 的 时 间 节 省 [25]. 

个 大 小 为 2” x 2" HURRAY STF 矢量 包括 两 个 部 分 。 第 -部 分 由 SABRI KALA, 
第 二 部 分 由 符号 截断 二 进 制 失 旦 组 成 。 均 值 撩 二 的 递 轨 定义 如 下 : 
Mean" (i,j) = | 4 5 SMe (21 rep, Ogijer -1 


PaO geo 























OgngN-1 





Mean” (i,j) = ¥ (i,j), O<ijo2*-1 (6.4.7) 
其 由 (i,j) 01, jq2 -1 是 原始 块 的 像素 亮度 值 。 
符号 截断 矢量 由 下 式 得 到 : 
st pte if 如 果 Moan" (i,j) = Mean" ( l dż |) 64 
1 其 他 
于 是 ,一 个 2” x 2" 的 块 分 解 到 第 = 级 的 SIF 矢量 可 以 表示 成 ， 
STFV? = JST，pattemy ,ST pattem®-) ST pattem™ ,mean™— "| (6.4.9) 


Sin = 时 ,一 个 块 被 完全 分 解 ,其 有 如 下 的 STP SEE: 
SIFWY = IST_pattem* ,ST _ pattem*-!,---,ST_ pattem! , mean” } (6.4.10) 

所 有 中 间 的 均值 矢量 只 用 于 年 成 ST KIEST patem) SF ATL SF 因此 ,最 终 的 STF 
表示 包括 一 个 具有 寺 (4* -也 比特 的 多 分 辩 率 一 进 制 序列 以 及 一 个 字 朋 的 均值 。 与 原来 4* 字 
节 的 像素 值 相 比 , 它 给 出 了 -个 减 小 很 多 的 数据 集 。 同 时 ,这 个 特征 集 允 许 在 块 匹配 中 运用 二 
进 制 的 布尔 操作 。 

作为 - 个 例子 ,让 我 们 考虑 如 何 对 于 -个 4x4 数据 块 构造 两 层 的 STF。 首 先 ,构造 均值 
FRAT 
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然后 得 到 如 下 的 STF RR: 
0 
1 1 0|/0 1 
1 | 


ja 
0 1 


已 一 一 一 
> 


0 0 1 
上 述 例 子 的 STF 矢量 分 解 到 一 层 的 STF 矢量 为 10110 ILO 1 (01 0001, (97,67,97,64) |。 完 全 分 
解 的 STF 矢量 为 10110 1110 1101 0001 ,0101,81i。 它 包括 一 个 20 比特 的 二 进 制图 形 ,其 中 包括 
一 个 4x4 的 第 一 层 SL 图形, 一 个 2x2 的 第 二 层 ST 图 形 和 ~ 个 均值 。 在 实际 实现 中 ,完全 分 
解 的 SIF 矢量 或 者 汇合 层 的 STF 矢量 都 可 以 使 用 。 
两 个 SIT 矢量 的 比较 是 由 两 个 并 行 的 判决 过 程 完成 的 :(1) 计 算 均 值 之 间 的 绝对 误差 ,(2) 确 
定 两 个 一 进 制图 形 之 间 的 汉 明 路 离 。 后 者 可 以 用 KOR 布尔 运算 非常 快 地 完成 。 因 此 ,HEM-ME 
的 主要 计算 负荷 是 计算 当前 的 和 所 有 候选 此 配 央 的 均值 塔 。 然 而 计算 可 以 提前 做 ,对 于 每 一 个 
可 能 的 块 仅 做 一 次 。 关 于 它 的 计算 复杂 性 的 详细 分 析 和 使 用 对 数 搜索 的 快速 算法 见 参考 文献 
[25]。 





6.5 可 变形 块 匹 配 算法 








在 前 面 介绍 的 块 匹配 算法 中 ,假定 每 一 个 块 进行 单纯 的 平 动 。 这 种 模型 不 适用 于 快 的 旋 
转 、 变 焦 等 。 一 般 可 以 用 较 复杂 的 模型 ,例如 仿 射 . 双 线性 或 投影 映射 描述 每 一 个 块 的 运动 ( 显 
然 ,这 仍 将 包括 作为 特例 的 平 动 模型 )。 对 于 这 种 模型 ,一 个 铺 定 帧 小 的 抉 一 般 被 映射 到 -个 
非 正方 的 四 边 形 ,如 峡 6.11 所 示 。 因 此 ,我 们 把 这 种 使 用 高 阶 模 弄 的 基于 亿 的 运动 佑 计 方法 
称 为 可 变形 块 还 配 算法 (DBMA)[24]( 也 称 为 广义 块 匹 配 算法 [36])。 下 面 ,我 们 首先 讨论 怎样 
只 用 块 角 ( 称 为 节点 ) 处 的 MV 内 插 出 块 中 任何 点 的 MY, 然 后 给 出 -个 伍 计 节 点 MV 的 算法 。 





















































图 6.4 可 变形 块 匹配 算法 为 错 定 帧 中 的 每 一 个 块 寻找 在 目标 帧 中 最 
佳 匹配 的 四 边 形 。 人 允许 的 块 变 形 依赖 于 块 所 使 用 的 运动 模型 
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6.5.1 基于 节点 的 运动 表示 


在 5.5 节 中 ,我们 描述 了 几 个 相应 于 不 同 三 维 运动 的 一 维 运 动 模型 、 所 有 这 些 模型 都 可 
以 用 来 表征 块 中 的 运动 。 在 5.5.4 节 中 ,我 们 说 明了 怎样 用 不 同 阶 的 多 项 式 映 射 来 近似 最 一 
般 的 模型 一 一 投影 映射 。 在 本 节 中 将 介绍 一 个 基于 节点 的 块 运动 模型 , 它 吕 以 表征 与 多 项 式 
模型 同样 的 运动 ,但 易于 说 明和 规定 。 

在 这 个 模型 中 ,我们 假设 在 块 中 所 选择 的 某 个 数目 的 控制 节点 能 够 自由 运动 ,而且 任 何 中 
间 点 的 位 移 叮 以 遥 过 节点 的 位 移 内 插 令 天 表示 控制 节点 数 ,dx 表示 &。 中 控制 节点 的 
MYV , 则 庆 的 运动 函数 可 描述 为 : 





x 
d(x) = N alda 2 EBn (6.5.1) 





公式 (6.5.1) 表 示 作 为 节点 位 移 的 内 插 块 中 任意 点 的 位 移 , 如 图 6.12 om, WIB baa OOR 
决 于 B。 中 第 大 个 控制 点 所 期 望 的 对 x 的 页 献 . - 种 设计 这 种 内 搬 核 的 方法 是 使 用 与 相应 的 
节点 结构 有 关 的 形状 函数 (在 6.6.1 节 中 我 们 进 - 秒 讨 论 形状 函数 的 设计 )。 

前 面 介 绍 的 平移 , 仿 射 和 双 线 性 模型 分 别 是 基于 节点 的 模型 在 一 .三 和 四 个 节点 时 的 特殊 
情况 。 此 有 更 多 节点 的 模型 可 以 表征 更 复杂 的 变形 .在 单 节点 情况 下 ( 齐 块 中 心 或 .个 选择 
的 角 ) 的 内 插 核 是 一 个 脉冲 函数 ,相当 于 最 近邻 内 插 。 在 三 节点 ( 块 的 任意 二 个 角 ) 和 四 节点 
{由 个 角 ) 情 况 下 的 内 插 函 数 分 别 是 仿 射 函 数 和 双 线 性 函数 。 要 对 矩形 块 应 用 伪 射 模型 ,首先 
要 把 矩形 分 成 两 个 三 角形 ,然后 每 -个 三 角形 模型 化 为 三 节点 模型 . 




















图 6.12 在 块 中 通过 节点 MY 的 运动 内 插 


与 前 面 介 绍 的 基于 多 项 式 表 示 法 相 比 较 , 基 十 节点 的 表示 法 易于 可 视 化 。 给 出 双 线 性 函 
数 的 8 个 系数 ,能 想像 出 可 变形 块 的 模样 码 ” 但 是 如 果 给 出 央 的 四 个 角 点 的 位 置 , 则 一 定 能 做 
到 ! 而 日 ,节点 的 MY 可 以 较 容 易 地 估计 ,并 有 量 可 以 用 比 多 斋 式 系数 低 的 精度 规定 它 。 和 根据 关 
“于 运动 的 动态 范畴 和 期 望 估计 精度 的 先 验 知识 ,确定 节点 MY 合适 的 搜索 范围 和 搜索 步 长 比 
确定 多 项 式 系数 更 容易 。 除 此 以 外 ,甘于 节点 表示 法 中 的 所 有 运动 参数 都 是 同等 重要 的 ,但 在 
多 项 式 表 示 中 这 些 参 数 不 能 同等 对 待 (例如 ,高 阶 系数 的 估计 要 比 常数 项 困难 得 多 )。 最 后 , 规 
定 多 项 式 系数 需要 很 高 的 精度 :高 阶 系数 一 个 小 的 变化 可 能 产 牛 很 不 相同 的 运动 场 。 另 一 方 
面 ,为 了 规定 节点 的 MY ,整数 或 者 半 像 素 精度 通常 就 够 用 了 。 这 些 特点 对 于 视频 编码 应 用 是 
很 重要 的 。 
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6.5.2 采用 基于 节点 模型 的 运动 估计 


因为 从 块 到 块 的 节点 运动 优 计 是 独立 的 ,所 以 我 们 省 略 了 用 来 标明 哪个 块 正 在 被 考虑 的 
脚 标 m。 下 面 的 推导 应 用 于 任何 块 B。 eee EATER HB BT A 
AO MV; BB a=[d,.kEK) ,其 中 = 11,2,…,Ki。 它 们 可 以 通过 使 这 个 块 上 的 预测 误差 最 小 
化 来 进行 估计 , 即 : 














E(a) = > I ¥a(w(x;a)) -Yi (x) 1? (6.5.2) 
其 中 
w(x;a) = x+ 2; $.(x)d, (6.5.3) 


与 BMA 一 样 ,有 很 多 方法 米 最 小 化 公式 (6.5.2) 中 的 误差 ,包括 穷尽 搜索 和 各 种 基于 梯度 
的 搜索 方法 。 然 而 ,需要 较 大 计算 瘟 的 穷尽 搜索 法 ,在 实际 中 可 能 因为 高 维 搜索 空间 而 是 不 可 
接受 的 。 而 基于 梯度 的 搜索 算法 在 这 种 情况 下 是 切实 可 行 的。 下 面 ,我 们 按 参 考 文献 [24] 中 
的 方法 推导 牛顿 -拉夫 森 搜 索 算 法 。 

定义 a= [aa], JẸ p a, = [Cd dx), a, = [dd dr] 可 以 
让 明 : 























其 中 
SE (a) -y (xia) 2005 8)) 5g) 
Fa, (@) #23, ela) Oy 


在 上 而 的 公式 中 ，e(xsa) = 区 2(w(xia)) -4 DM B(x) = 18,00) OX) oy Be (XD ]"0 
BME RI WE OT RMT BL: 


[H (a)] (E, (9) 


cH) = [Taw] oa 





其 中 
[Cj = ?2 HENTES 


[Ho = 259 ( 


2)" | nsw $Cx) B(x)? 
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ova ies 


UH, (a) 1 = Piers | face $x) B(x)? 





牛顿 -拉夫 森 更 新 算法 是 : 


a a — of (a?) Ea) (6.5.4) 


每 次 迁 代 中 的 更 新 都 需要 2K x 2K 对 称 矩 阵 [ 耳 ] 的 求 逆 。 
为 了 减少 数字 计算 ,我 们 可 以 分 别 更 新 x 和 y 方向 上 的 位 移 。 通 过 类 似 的 推导 将 得 到 : 


ale? a ol Ha (al?) JO REO) (6.5.5) 
a? mal? — ol aM] D(a) (6.5.6) 


FEMI BE RARER Kx K MRORI. AVS RA BCH 8 x8 
ZERE, MOH., DAIL HL, JE 4x 4 SE, 

与 所 有 的 基于 梯度 的 选 代 过 程 一 样 , 如 果 初 始 解 选 择 得 不 合适 ,上 述 更 新 算法 可 能 达到 一 
个 坏 的 远离 全 局 最 小 的 局 部 最 小 。EBMA 通常 可 以 提供 一 个 好 的 初始 解 。 例 旭 ,考虑 四 节点 
模型 ,等 个 块 的 每 一 个 角 都 是 一 个 节点 。 可 以 用 与 每 个 节点 相连 的 四 个 块 的 运动 失 量 的 平 
均 作为 这 个 节点 MY 的 初始 估计 ,然后 这 个 初始 估计 可 以 用 公式 (6.5.4) 相 继 地 更 新 。 

要 注意 ,这 种 算法 也 可 以 用 于 基于 多 项 式 的 运动 表示 。 其 中 ,a, 和 a, 分 别 代表 与 水 平和 
垂 育 位 移 有 关 的 多 项 式 系数 , 由 (") 对 应 于 基本 的 多 项 式 基 丽 数 。 然 而 ,为 &a 和 a, aw 
索 区 域 以 及 检验 所 得 到 的 运动 场 的 可 行 性 是 采 难 的 。 


6.6 基于 网 格 的 运动 估计 ” 


于 BMA 或 者 DRMA 所 使 用 的 基于 鼎 的 模型 ,各 个 块 中 的 运动 参数 都 是 独立 规定 的 。 

上 部 近 块 的 运动 参数 被 约束 得 非常 平滑 ,所属 计 的 运动 场 通常 是 不 连续 .有 时 还 是 混乱 
的 ,如 图 6.13(a) 所 示 。 解 决 这 个 问题 的 一 个 办 法 是 采用 基于 网 格 的 运动 估计 。 如 图 6.13(b) 
所 示 ,锁定 帧 被 一 个 网 格 所 覆盖 ,运动 估计 的 问题 是 寻找 每 一 个 节点 的 运动 ,使 得 锚 定 帧 每 一 
个 元 素 内 的 图 案 与 日 标 帧 中 相应 的 变形 元 素 很 好 地 匹配 。 每 一 个 扰 素 内 的 运动 是 由 节点 的 
MY 内 插 得 到 的 。 只 要 日 慰 帧 的 节点 保持 爸 成 一 个 可 行 的 网 格 ,基于 网 格 的 运动 表示 就 保 让 
是 连续 的 ,从 而 不 会 有 与 基于 抉 的 表示 机 关联 的 块 失真 。 基 于 网 格 表示 的 另外 -- 个 优点 是 , 它 
能 够 连续 地 跟踪 相继 帧 上 的 相同 的 节点 集 , 这 在 需要 物体 蹊 耻 的 应 用 中 是 所 希望 的 。 如 
图 6. 130) Bras ,我 们 可 以 为 初始 帧 生成 - -个 网 格 ,然后 再 在 每 两 个 帧 间 估 计 节 点 的 运动 。 每 
-个 新 的 帧 (锁定 帧 ) 都 使 用 前 一 步 产 生 的 网 格 ,使 得 相同 的 节点 集 在 所 有 的 帧 得 到 跟踪 。 这 
对 于 基于 块 的 表示 是 不 可 能 的 ,内 为 它 要 求 每 .个 新 的 锚 定 帧 被 重 置 为 包含 常规 块 的 一 
分 制 。 


> WHR OTT PRA MR ATIC. 
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应 该 注意 ,基于 网 格 表示 的 内 在 连续 性 不 总 是 所 希望 的 。 能 用 这 种 表示 捕 提 的 运动 类 型 ， 
可 以 形象 化 为 橡胶 板 的 变形 , 它 是 各 处 连续 的 。 在 真实 世界 的 视频 序列 中 ,物体 边界 处 的 运动 
经 常 是 不 连续 的 。 更 精确 的 表示 可 以 对 不 同 的 物体 使 用 分 离 的 网 格 。 与 基于 块 的 表示 一 样 ， 
基于 网 格 的 表示 的 精度 依赖 于 节点 数 。 只 黎 使 用 是 够 数量 的 节点 ,就 可 以 重 现 非常 复杂 的 运 
动 场 。 为 了 使 所 需要 的 节点 数 最 小 化 ,网 格 应 该 自 适应 成 像 场景 ,使 每 个 元 素 中 的 真实 运动 是 
平滑 的 ( 即 可 以 由 节点 的 运动 精确 地 内 揪 )。 如 果 使 用 一 个 常规 的 . 韭 适 应 的 网 格 , 那 么 为 了 精 
确 地 近似 运动 场 就 需要 大 量 的 节点 - 

下 面 ,我 们 首先 潮 述 怎样 用 基于 网 格 的 表示 指定 一 个 运动 场 ,然后 提出 估计 网 格 中 的 节点 
运动 的 算法 - 






















































































图 6.13 基于 块 和 基于 网 格 的 运动 表示 法 比较 :(a) 两 帧 之 间 基 于 块 的 运动 估计 ,在 销 定 
帐 中 的 每 一 个 块 内 采用 平移 模型 ;(b) 两 帜 之 间 基 于 网 格 的 运动 估计 , 锚 定 幢 
采用 常规 网 格 ;(c) 基 于 网 格 的 运动 跟踪 ,每 一 个 新 的 钳 定 帧 采用 跟踪 的 网 格 
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6.6.1 基于 网 格 的 运动 表示 


在 基于 网 格 的 运动 表示 中 , 锚 定 帧 中 的 图 像 域 被 分 割 成 巨 不 重 玖 的 多 边 形 元 素 。 每 一 个 
元 素 用 凡 个 节点 和 节点 间 的 连 线 去 示 , 如 图 6.14 所 示 。 这 样 的 网 格 也 称 为 控制 网 格 。 在 基于 
网 格 的 表示 中 ,整个 帧 的 运动 场 只 用 节点 处 的 MY 描述 。 一 个 元 素 内 部 点 的 MV 由 该 元 索 节 
点 的 MV 内 播 得 到 。 节 点 的 MV 是 受 约束 的 ,使 月 标 帧 中 的 节点 保持 构成 证 行 的 网 格 , 没 有 卷 
边 的 元 素 。 

令 寻 和 分别 表示 无 素数 和 节点 数 .天 表示 定义 每 个 元 素 的 节点 数 。 为 了 方便 ,我 们 定 
文 下 而 的 索引 集 :Ad = 11,2， MIN =, 2, NEK = 112 ,天 |。 帧 := 1 表示 错 定 
帧 ;t=2 表示 目标 帧 ) 的 第 m TICK n EARB, n, mE MA gaon CN ERB n 
个 节点 的 MY Fd, =, —™,, BR. CRB a HWS HHA d, 的 关系 是 : 

















d = D faa dano > Bun 6.6.1 
| (x) Bp bo) ima XE { y 


其 中 nOn, bE m 个 元 素 中 的 第 节点 的 全 局 索引 ( 见 岗 6.14), BBB, (xX) 是 与 
FOR m 中 的 节点 有 关 的 内 搬 核 。 它 决定 于 81.。 中 的 第 个 节点 对 x 处 的 MY 期 望 的 贡献 。 
这 种 内 搬 机 制 已 示 导 前 面 的 图 6.12， 为 了 保证 穿越 元 素 边界 的 连续 性 ,内 搬 核 应 该 满足 








Os tai) cl, Sia) = 1, VxE Bin 


All 
l k=l 
0 kel 
TEA RTE (FEM) SP HP, XE BBR TEAR [45]. ASR BAT BY CE ERER , HE 
么 所 有 的 形状 函数 就 是 相等 的 . 即 $x) = 8 Ox) 0 
标准 的 二 角形 和 四 边 形 元 素 示 于 图 6.15。 标 准 三 角形 元 素 的 形状 丽 数 是 ， 
Bix ylex, Mayday, = xy (6.6.2) 
标准 四 边 形 元 素 的 形状 函数 是 : 
Bx y= (1+) 4 (x,y) = 1+) + yd 
B(x) = + y), ,y= -x)= y)/4 (6.6.3) 
我 们 看 到 这 两 种 情况 的 形状 函数 分 别 是 仿 射 和 双 线性 函数 。 关 于 任意 三 角形 元 素 的 形状 函 
数 ,法 者 可 以 参阅 参考 文献 [41]。 这 些 函 数 的 系数 依赖 于 节点 位 置 。 
庶 该 注意 的 是 ,公式 (6.6.1) 中 锋 一 个 元 素 内 的 送 动 表示 与 公式 (6.5.1) 介 绍 的 基于 节点 
的 运动 表示 相同 ,除了 节点 和 元 素 是 用 全 局 索引 表示 以 外 。 这 是 必需 的 , 因为 从 一 个 元 素 到 一 
个 元 素 节 点 的 MV 不 是 独立 的 。 重 要 的 中 不 要 把 基于 网 格 的 模型 与 上 一 节 介绍 的 基于 节点 的 
模型 混 消 起 来 。 尽 管用 个 相 邻 的 快 可 能 共享 相同 的 节点 ,但 是 每 个 块 的 节点 MY 是 独立 确定 
的 。 回 到 图 6.14(b) ,在 基于 网 格 的 模型 中 ,节点 n 被 分 配 一 个 单独 的 MY, 它 将 影响 与 这 个 节 
点 相连 的 四 个 四 边 形 元 素 中 内 插 的 运动 函数 。 在 基于 节点 的 模型 中 , 节点 n 可 以 具有 四 个 不 


| 
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FIR MV ,这 取决 于 要 考虑 哪个 块 的 运动 。 
































(b) 


图 6.14 基于 网 格 运动 表示 的 图 解 :(a) 使 用 二 角形 网 格 ; 每 一 个 元 素 有 三 个 节 
点 相连 ;(b) 使 用 四 边 形 网 格 ,每 一 个 元 素 有 四 个 节点 相连 。 在 这 个 例 
子 中 ,两 个 网 格 有 同样 数量 的 节点 ,但 三 角形 网 格 中 有 两 倍 的 元 素 。 左 
边 的 -列表 示 错 定 司 初始 的 网 格 ,右边 的 一 列 是 目标 帧 中 的 变形 网 格 





@ 


图 6.15 《a) 一 -个 标准 三 角形 元 素 ; (b) 一 个 标准 四 边 形 元 素 { 正 方形 ) 
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6.6.2 采用 基于 网 格 模 型 的 运动 估计 


对 于 基于 网 格 的 运动 表示 ,一 般 炎 解决 两 类 问题 .(]) 在 锚 定 帧 中 给 定 - -个 网 格 { 或 者 等 
效 地 ,节点 ), 如 何 确定 目标 帧 中 的 节点 位 置 一 一 这 实质 上 是 - -个 运动 估计 问题 。(2) 在 错 定 
帧 中 如 何 建立 网 格 ,使 得 网 格 与 物体 的 边界 一 敏 。 注 意 ,每 个 元 素 对 应 于 单个 物体 的 小 块 光 
滑 表面 的 网 格 比 任意 配置 的 网 格 ( 例 如 ,正规 网 格 ) 能 得 色 更 精确 的 运动 估计 。 一 个 物体 自 适 
应 的 网 格 也 将 更 适 于 帧 序列 的 运动 跟踪 。 本 书 中 我 们 只 是 考虑 第 -个 问题 ,关于 网 格 生 成 问 
题 , 见 参考 文献 [42,3]， 

对 十 由 公式 (6.6.1) 描 述 的 基 十 网 格 的 运动 表示 , 送 动 参数 包括 节点 MV, Hl a= id, nE 
Nis 为 了 估计 它们 ,可 以 再 次 使 用 误差 最 小 化 方法 。 在 基于 网 格 的 模 玖 下 ,公式 (6.2.1) 中 的 
DID 误差 这 为; 





Bd sn EN) D D maD- (6.6.4) 


eM CB 


其 中 ,按照 公式 (6.6.) 有 : 


w,(x) =x4+ 5) 


AE, AUB, KURA, 2858 (6.6.4 IRE MOE PEL TRG RET 

以 认为 B,.。 ,t=1,2 是 由 一 个 具有 规则 形状 的 主 元 素 变 形 得 到 的 。 -BRERA E 

元 素 忆 能 起 不 同 的 。 这 里 我 们 从 汰 上 庶 这 种 情况 ,就 是 所 有 的 元 素 都 具有 相同 的 拓扑 结 居 , 这 个 
拓扑 结 构 可 以 由 同 - -个 主 元 素 名 映射 得 到 。 图 6.16 显示 了 这 种 映射 。 

SANER GBP k TTAN TER RR A BAS, OH BROT RRA: 


Britains XE Bin 














Felt) = TAM Kao WEB, 112 (6.6.5) 





相应 VREZE AN DE ORE RB OAS (6.6.2 及 6.6.3) 中 给 出 了 。 公式 
C6.6.4) 中 的 误差 可 以 在 主 元 素 上 计算 得 到 ， 


Ed a EN) = 3) be)? 1G) | (6.6.6) 
A 
其 中 
en (U) =V (wa)) Wn)) (6.6.7) 


表示 这 两 个 图 像 巾 之 同 在 那些 都 是 由 主 元 素 ( 见 图 6.16) 中 的 理 映 射 订 来 的 点 上 的 误差 。 丽 
数 Jw) Ra wy. (a) = [we (a) w, (a) J 的 雅 可 比 行列 式 ?; 


ORI, REE ] 的 积分 定义 时 FET UAE, BOWIE RAD RU, BE a Re 
EEH. 
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(6.6.8) 




















中 = Lay) ,ams = [yn] o 


“i wa 




















图 6.16 A ETRA BO SADA ON- MIO, aAa, AA 


对 于 一 系列 帧 的 运动 跟踪 ,因为 个 新 锚 定 帧 使 用 的 网 格 都 昆 由 前 一 步 产 生 的 跟踪 网 
格 ,所 以 Bo 的 形状 一 般 是 不 规则 的 《 见 图 6.13(c))。 于 是 ,映射 函数 Ww,(u) 和 雅 可 比 行列 式 
六 (四 依赖 于 Bi 中 的 节点 位 置 。 另 一 方面 ,对 于 两 帧 间 的 运动 估计 ,为 了 减 小 复杂 性 ,我 们 可 
以 对 错 定 帧 使 用 正规 网 格 ,使 每 个 元 素 本 身 等 于 主 元 素 ( 见 图 6.13(b) )。 在 这 种 情况 下 ,我们 
A w,,,.(u) =u Fl J, (a) lo 

当 己 =2 时 ,公式 (6.6.6)} 中 误差 函数 的 梯度 是 : 


























Jain. (0) | (6.6.9) 


Mamla Dia 


> : 和 Ca 2200 
还 = hy ae 











P m(n, AE SS n 个 节点 相连 的 第 k SRS ARS), AO 示 出 了 在 四 边 形 网 
格 情况 下 连接 到 节点 n 的 相 邻 元 素 和 形状 函数 。 











6.17 ”四边 形 网 格 的 邻 域 结构 ;对 于 给 定 的 节点 ,有 四 个 与 它 相 连 
的 元 素 ,每 一 个 元 素 具 有 一 个 与 这 个 节点 相连 的 形状 画 数 





136 视频 处 理 与 通信 





可 以 看 出 ,关于 一 个 节点 的 梯度 仅 依赖 于 与 它 相 连 的 几 个 元 素 中 的 误差 .理想 情况 上 ,在 
基 玫 梯度 的 搜索 算法 的 每 次 迭代 中 ,为 了 计算 任意 节点 的 梯度 状 数 ,应 假定 其 他 的 节点 是 男 
定 在 前 一 次 达 代 得 到 的 位 置 上 。 一 旦 选 代 结 束 ,在 进行 下 次 夺 代 前 这 些 节点 都 应 被 惠 新 。 
供 实际 上 ,为 了 上 加速 过 程 ,我 们 可 以 一 次 更 新 一 个 节点 ,同时 图 定 它 周围 的 节点 。 当 然 ,这 种 次 
优化 的 方法 会 导 竹 发散 或 者 收 伍 到 一 个 局 部 最 小 , 它 比 由 同时 更 新 所 有 节点 所 得 到 的 值 要 差 。 
除了 开通 常 的 光 权 硕 序 喝 新 节点 外 ,为 了 提高 精度 和 收敛 速度 ,我 们 可 以 对 节点 排序 ,使 运动 
矢量 能 够 被 较 精 确 估 计 的 节点 先 得 到 喝 新 。 因 为 平滑 区 域 运 动 估计 的 不 确定 性 ,所 以 最 好 先 

更 新 具有 大 的 边缘 幅度 和 小 的 运动 补偿 误差 的 节点 。 这 称 为 最 高 置信 和 度 优 先 [7] ,这 种 方法 取 
自 参 考 文献 [2]。 另 外 -种 可 能 是 把 所 有 的 节点 分 成 几 弓 ,使 同一 组 中 的 节点 不 共有 同一 个 元 
素 , 因 此 它们 对 谋 差 函数 的 影响 是 独立 的 。 顺 序 地 更 新 则 -组 中 的 节点 就 等 价 于 同时 更 新 这 
些 节点 (这 是 节选 自 参 考 文献 [42] 的 方法 )。 可 以 使 用 一 阶梯 度 下 降 法 或 一 阶 牛 顿 - 搁 夫 森 弄 
的 更 新 算法 - 一 阶 算法 收敛 要 快 得 多 ,但 它 更 易于 收敛 到 环 的 局 部 最 小 。 

新 中 新 的 基于 同 度 函数 的 节点 位 置 可 能 导致 过 度 变 形 的 元 素 (包括 卷 边 的 和 詹 角 的 元 
素 )。 为 了 避免 发 生 这 种 傅 况 ,我 们 应 该 限制 更 新 的 节点 位 置 可 以 将 入 的 搜索 范围 。 如 果 更 新 
的 位 串 超出 了 这 个 范围 ,那么 就 应 该 把 它们 投影 到 定义 的 搜索 区 域 中 最 近 的 点 。 图 6.18 示 出 
了 四 边 肛 网 格 情况 下 的 合理 的 搜索 区 城 。 

下 而 且 应 用 于 穷尽 搜索 算法 。 在 这 种 情况 下 ， 
我 们 可 以 一 次 更 新 一 个 节点 ,搜索 的 节点 位 置 将 使 图 6.18 所 示 的 搜索 区 域内 与 它 相 连 的 元 素 
“OO MR BU. 对 每 一 个 候选 位 置 ,用 公式 (6.6.6) 计 算 误差 ,但 是 只 在 与 该 节点 相连 
的 元 素 上 进行 举 积 。 最 优 位 六 是 具有 最 小 误 莽 的 位 置 、 同 样 ,在 这 毕 搜 索 顺序 是 很 重要 的 。 




































































(a) 多) 


图 6.18 存 给 定 其 他 节点 的 位 置 时 ,节点 ”的 搜索 区 域 :次 形 区 域 (虚线 ) 是 理 
论 极限 ,内 部 萎 玫 区 域 (阴影 } 是 实际 使 用 的 。 当 x, 落 在 如 图 (a) 所 未 
的 莹 形 区 域 的 外 面 的 时 候 ,至 少 有 -个 与 它 相 连 的 元 素 是 印 角 的 。 通 
过 把 % 投影 到 如 图 (hb) 中 所 示 的 内 部 营 形 ,由 个 元 素 都 不 会 过 度 变 撒 


例 6.2 图 6.8(e) 和 ( 们 示 出 了 在 每 一 个 新 帧 使 用 给 形 网 格 用 穷尽 搜索 法 进行 后 向 运动 合计 
获得 的 结果 [43]。 图 6.8(e) 是 履 盖 在 目标 鸯 上 部 的 变形 网 格 ,图 6.8 ARE HH a 
BR, £E A 6.8) PE-+REMOMBARTREM 中 的 一 个 正方 形 块 。 在 脸 的 
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右边 的 一 个 窗 四 边 形 说 明 它 在 锚 定 帧 中 被 扩展 了 。 可 以 看 到 ,相应 于 平滑 的 运动 场 ,网 格 
也 是 平滑 变形 的 。 预 测 图 像 并 不 会 出 现 与 EBMA 有 关 的 块 失真 (图 6.8(d) 和 (全 ), 表 现 出 
的 是 原始 图 像 的 一 个 较 成 功 的 预测 。 然 而 在 预测 图 像 (图 6.8(f)) 与 原始 图 像 (图 6.8(b)) 之 
间 仔 细 地 比较 可 以 看 出 , 闭 眼睛 和 嘴 运 动 没有 被 精确 地 预测 ,同时 在 下 巴 和 脖子 附近 有 人 为 
的 扭曲 失 贵 。 实 际 上 ,预测 图 像 的 PSNR 4T  EBMA 获得 的 PSNR。 


至 此 ,我 们 假定 为 整个 当前 帧 产生 (或 者 在 前 向 跟踪 情况 下 ,由 前 一 帧 推演 ) 单 一 的 网 格 ， 
这 个 网 格 中 的 每 一 个 节点 被 日 标 帧 中 的 一 个 并 且 只 有 一 个 节点 所 跟踪 , 因此 目标 帧 的 节点 仍 
形成 一 个 覆盖 整个 帧 的 网 格 。 为 了 处 理 场景 中 新 出 现 和 消失 的 物体 ,应 该 允许 删除 对 应 于 消 
失物 体 的 节点 ,以 及 建立 新 出 现 物体 的 新 节点 。 关 于 这 个 问题 的 解释 见 参考 文献 [3]。 





6.7 全 局 运动 估计 


在 5.5 节 中 我 们 指出 ,根据 摄像 机 和 物体 运动 以 及 物体 表面 的 几何 形状 ,相同 成 像 物 体 的 
两 个 图 像 问 的 运动 场 可 以 用 平移 ,几何 变换 、 仿 射 映射 和 投影 映射 来 描述 。 如 果 整 个 运动 场 是 
出 摄像 机 运动 引起 的 ,或 者 如 果 成 像 场 景 包含 一 个 进行 三 维 刚性 运动 的 物体 ,那么 这 样 的 模型 
就 可 以 应 用 在 整个 帧 中 人 D。 

实际 上 ,我 们 很 难 寻 找 一 个 包含 单 物体 的 视频 序列 。 通 常 最 少 有 两 个 物体 ;一 个 静止 的 背 
景 和 一 个 运动 的 前 景 。 更 经 常 的 情况 是 有 一 个 以 上 的 前 景物 体 。 幸 好 , 当前 景物 体 的 运动 与 拔 
像 机 的 运动 相 比 很 小 ,并 且 摄像 机 不 是 沿 2 方向 运动 时 ,运动 场 可 以 用 一 个 全 局 模型 更 好 地 近 
似 。 例 如 , 当 摄像 机 以 一 个 相对 快 的 速度 在 场景 中 扬 摄 ,或 变焦 到 一 个 特殊 的 对 象 时 就 是 这 种 情 
况 。 这 种 摄像 机 的 运动 在 体育 运动 视频 和 电影 中 是 相当 常见 和 的。 即使 当真 实 的 二 维 运动 场 不 能 
一 个 单 - 的 整体 运动 表示 时 ,只 要 摄像 机 的 运动 效果 与 其 他 运动 (个 别 小 物体 的 运动 ) 相 比 占 
主导 地 位 ,确定 这 个 主导 的 全 局 运动 就 仍 是 非常 有 用 的 。 本 节 讨论 全 局 运动 估计 。 

-- 般 有 两 种 估计 全 局 运动 的 方法 。 一 种 是 在 一 个 给 定 运动 参数 集 下 ,通过 最 小 化 预测 误 
差 来 友 接 估计 全 局 运动 参数 。 另 外 一 种 方法 是 首先 用 前 面 描述 的 技术 确定 像素 或 块 的 运动 和 
量 ,然后 用 一 种 回归 方法 寻找 与 估计 的 运动 场 最 匹配 的 全 局 运动 模型 。 后 一 种 方法 也 可 以 应 
用 于 所 选 定 的 特征 点 (例如 共有 很 强 的 边缘 的 点 ) 的 运动 矢量 。 


6.7.1 健壮 估计 器 


估计 全 局 运动 的 一 个 困难 是 一 个 像素 可 能 不 只 是 经 历 全 局 运动 。 通 常 ,任何 像素 的 运动 
可 以 分 解 为 全 局 运动 (由 摄像 机 运动 引起 ) 和 由 运动 物体 引起 的 局 部 运动 。 因 此 ,即使 利用 正 
依 的 全 局 运动 参数 ,单独 使 用 全 局 运动 模型 得 到 的 估计 误差 可 能 也 不 是 很 小 的 。 另 一 种 情况 
是 ,不 是 同一 巾 的 所 有 像素 都 经 历 全 局 运动 ,理想 情况 下 我 们 不 应 该 对 整 帧 应 用 相同 的 运动 模 
型 。 当 全 局 运动 与 其 他 局 部 运动 相 比 占 主导 地 位 时 ,这 些 问 题 可 以 用 健壮 估计 法 [15] 予 以 克 
服 。 占 主导 地 位 的 意思 是 ,经历 相同 的 全 局 运动 ,或 者 经 历 这 个 全 局 运动 的 像素 与 那些 不 经 历 
这 个 全 局 运动 的 像素 相 比 占 有 图 像 域 中 相当 大 的 一 部 分 。 







































































O TAN EPR SLM E 2 方向 运动 的 情况 下 ,只 有 物体 到 沿 是 平坦 的 , 运动场 才能 够 用 投影 映射 表示 ( 见 5.5.3 
入 )。 当 物体 表面 是 空间 变化 时 , 企 何 点 的 映射 画 数 也 依 粮 于 该 点 的 表面 深度 ,并 且 不 能 用 全 局 模型 表示 。 
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健壮 估计 的 基本 员 想 是 认为 被 全 局 运动 主宰 的 像素 是 内 围 层 , 剩 下 的 像素 是 外 露 层 。 起 初 ， 
我 们 假定 像素 都 进行 相 局 的 全 局 运动 ,并 且 通 过 最 小 化 所 有 像素 的 预测 或 匹配 误差 来 估计 运动 
参数 。 这 将 产生 一 个 初始 的 运动 参数 集 。 然 后 用 这 个 切 始 解 ,我 们 可 以 计算 每 个 像素 的 据 测 或 
匹 孔 误差 ， 关 莽 超过 某 一 阔 值 的 像素 被 归 为 外 夏 层 ,并 在 下 一 次 迁 代 时 去 掉 。 然 后 对 剩 下 的 内 
司 层 像素 重复 这 个 过 程 ,直到 没有 外 露 层 像素 存在 为 止 。 这 种 方法 称 为 硬 阅 信 健 壮 估计 器 。 

疮 不 用 在 每 次 这 代 的 本 尾 简单 地 把 一 个 像素 分 类 为 内 围 层 或 是 外 密 层 的 方法 ,我 们 也 可 
以 为 得 个 像素 设计 -个 人 不同 的 权重 ,对 小 的 误差 加 大 的 权 值 ,否则 反之 。 在 下 一 个 最 小 化 或 区 
配 沈 代 中 ,使用 一 个 加 权 的 误差 浏 明 , 从 而 在 前 一 次 达 代 中 有 较 大 误 盖 的 像素 将 比 那 些 有 较 小 
误 站 的 像素 具 太 较 少 的 影响 。 这 个 方法 称 为 软 疝 值 健壮 估计 回 。 


6.7.2 直接 估计 


无 论 在 厂 阔 值 或 者 软 阔 值 健壮 估计 器 中 , 短 一 次 选 代 帮 水 及 误差 本 数 的 最 小 化 。 这 里 我 
们 导出 当 模 型 参数 是 点 接 由 最 小 化 预测 误差 得 到 时 该 汕 数 的 形式 。 汕 于 便 阐 值 的 情况 可 以 认 
为 是 权 值 为 0 或 ! 时 的 特例 ,我 们 只 考虑 软 诗 估 的 情况 。 令 从 错 定 帧 到 月 标 帧 的 运动 声 
Cx a) BK RP a 是 包含 所 有 全 局 运动 参数 的 欠 景 ,预测 识 差 可 以 根据 公式 (6.2.1) 写 为 : 


Bom = >) w, |¥2(x, + d(x, 3a)) -W(x ? (6.7.1) 












































其 中 ,x, WEN = 11,2, NRA IE TA OR, w, MRK x, 的 加 权 系数 。 
TERETERE — UE OH BCR ht a 是 通过 最 小 化 这 个 误差 ,用 基于 梯度 或 穷尽 搜索 
法 佑 计 出 来 的 。 加 权 因 子 w, 在 - -次 新 的 迭代 中 ,将 会 根据 x, 的 DFD 进行 调整 ,DFD 是 根据 
前 -次 迁 代 中 估计 的 运动 参数 计算 的 。 

6.7.3 间接 估计 


对 于 间接 估计 ,我 们 假定 运动 矢量 d, 已 经 在 . -组 足够 密集 的 点 x, ,nmEA/ 估 计 出 来 让 
例如 ,这 可 以 使 用 前 面 所 述 的 基于 块 或 基于 网 格 的 方法 实现 。 我 们 也 可 以 选择 只 在 选 定 的 特 
征 点 处 估计 MY, 在 那些 地 方 估计 精度 是 遍 的 。 这 里 的 任务 是 确定 a, 使 得 模型 d(x;a) 能 够 很 
好 地 近似 预 估计 的 MY dpon EAN。 这 可 以 通过 最 小 化 下 面 的 此 配 误差 来 实现 ; 


Ex = Š) wl d(x,;a) - d, |? (6.7.2) 
nts 

















如 5.5.4 节 所 说 明 的 ,全 局 运动 一 般 用 多 项 式 现 数 描述 或 近似 。 在 这 种 情况 下 ,a 由 多 项 
式 的 系数 组 成 ,d(x, ;a) 是 a 的 线性 函数 , 即 d(x, sa) = [ACx, )]a。 如 果 选 择 p =2, 那 么 最 小 
化 的 问题 变 成 了 一 个 加 权 的 最 小 平方 问题 。 通 过 设置 2 6 /3a = 0, 我 们 得 到 如 下 的 解 : 


a= (>) wlAG IAG, 1)“ Y weLACx,)]"a,) (6.7.3) 








例如 ,考虑 在 公式 (5.5.16) 给 出 的 仿 射 运动 异型 。 运 动 参数 矢量 是 ac [ays a, az, bo, 
by b MEL ACx,) LE: 


a[i * % 9 o 中 


00 01 «, 
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实际 上 ,x Aly 维 的 参数 并 不 是 成 对 的 ,可 以 分 别 估计 ,这 就 减 小 了 所 设计 的 矩阵 的 尺寸 。 例 
如 ,估计 方向 的 参数 a, = Lao, a ,os], 有 美的 矩阵 是 [A.(xs)1 = [1 ans ya LARA: 
= (> w,[A.G,) 17 [A "(33 w LA, a) lana) (6.7.4) 


nex 


6.8 基于 区 域 的 运动 估计 ” 


正如 前 一 节 所 指出 的 ,在 一 个 成 像 的 场景 中 通常 有 多 种 类 型 的 运动 ,它们 对 应 于 与 不 同 的 
物体 有 关 的 运动 。 在 基于 区 域 的 运动 估计 中 ,我 们 把 图 像 帧 ( 锚 定 帧 ) 分 割 成 多 个 区 域 , 并 估计 
每 个 区 域 的 运动 参数 。 这 种 分 割 应 该 使 一 个 单一 的 参数 运动 模型 可 以 很 好 地 表示 每 个 区 域 的 
运动 。 显 然 ,区 域 分 割 依赖 本 用 于 表征 每 个 区 域 的 运动 模型 。 最 简单 的 方法 是 世 求 每 个 区 域 
进行 单独 的 平移 运动 。 然 而 这 个 要 求 会 造成 太 多 小 的 区 域 ,因为 在 对 应 于 -… 个 物理 物体 的 区 
域 中 的 二 维 运动 , 极 少 能 够 用 一 个 简单 的 平移 来 模型 化 。 这 样 一 个 区 域 必须 分 制 成 许多 小 的 
子 区 域 ,使 每 一 个 子 区 域 具 有 单 -的 平移 运动 。 对 于 更 高 效 的 运动 表示 ,应 该 使 用 仿 射 、 双 线 
性 或 透视 运动 模型 。 

一 般 实现 基于 区 域 的 运动 估计 有 3 种 方法 。 第 一 种 方法 ,我 们 首先 把 图 像 巾 分 割 成 不 司 
的 区 域 一 基于 纹理 同 质 性 .边缘 信息 以 及 有 时 通过 对 两 是 问 不 同 图 像 的 分 析 得 到 的 运动 边 
界 ,然后 估计 每 一 个 区 域 中 的 运动 。 后 首 可 以 通过 对 每 个 区 域 应 用 6.7 节 描述 的 全 局 运动 估 
讨 法 实现 。 我 们 称 这 种 方法 为 区 域 优先 。 第 二 种 方法 ,我 们 首先 估计 整个 图 像 的 运动 场 ,然后 
分 割 得 到 的 运动 场 ,使 得 每 一 个 区 域 的 运动 可 以 几 单 一 的 参数 模型 描述 ,我 们 称 这 种 方法 为 运 
动 优先 。 得 到 的 区 域 可 以 在 一 些 空间 的 连通 性 约束 下 进一步 地 优化 。 这 个 方法 中 的 第 一 步 可 
以 用 前 面 描述 的 各 种 运动 估计 方法 实现 ,包括 基于 像素 . 块 和 网 格 的 方法 。 第 二 步 涉及 基于 运 
动 的 分 割 ,将 在 6.8.1 节 中 进一步 讨论 。 第 三 种 方法 是 对 区 域 分 割 和 每 一 个 区 域 的 运动 进行 
联合 估计 。-- 般 这 是 用 一 个 适 代 过 程 实现 的 ,安检 地 进行 区 域 分 割 和 运动 估计 ;在 6.8.2 节 介 
绍 这 种 方法 。 


6.8.1 基于 运动 的 区 域 分 割 


如 前 所 述 ,基于 运动 的 分 割 是 指 把 运动 场 分 成 多 个 区 域 ,使 每 个 区 域 中 的 运动 都 可 由 一 个 
单一 的 运动 参数 集 来 描述 。 这 里 我 们 给 出 实现 这 个 任务 的 两 种 方法 :第 一 种 方法 使 用 桶 类 技 
本 确定 相似 的 运动 矢量 。 第 二 种 方法 用 分 层 技术 从 占 主 导 运 动 的 区 域 开始 ,相继 地 估计 区 域 
和 相应 的 运动 。 

聚 类 ”考虑 每 个 区 域 的 运动 模型 是 纯 平移 的 情况 。 分 割 的 任务 是 把 所 有 具有 类 似 MV 的 
空间 相连 的 像素 分 组 到 一 个 区 域 。 这 肯 自 动 聚 类 方法 ,例如 天 平均 或 ISODATA 方法 [8] 很 容 
易 实现 。 这 是 -… 个 达 代 过 程 :从 一 个 初始 分 割 开始 , 计算 每 个 区 域 的 平均 运动 矢量 , 称 为 质心 。 
然后 每 个 像素 被 重新 划分 到 其 质心 最 接近 这 个 像素 的 运动 矢量 的 区 域 。 这 产生 了 - -个 新 的 分 
割 ,前 面 的 两 步 可 以 循环 进行 ,直到 分 割 不 青 变化 为 止 。 在 这 个 过 程 中 ,没有 考虑 空间 的 连通 
性。 因此 ,得 到 的 区 域 可 能 包含 空间 不 连通 像素 。 在 选 代 的 末尾 可 以 加 一 个 后 处 理 步骤 ,以 改 
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进 所 得 区 域 的 空间 连通 性 。 例 如 ， -个 单 .区域 可 以 分 成 几 个 子 区 域 ,使 得 每 个 区 域 都 是 一 个 
空间 连通 的 了 集 ,孤立 的 像素 可 以 合并 到 它 周 顺 的 区 域 中 ,最 后 ,区 域 边界 可 以 使 用 形态 学 算 
子 进行 平滑 。 

当 每 个 区 域 的 运动 模型 不 是 - -个 简单 的 平移 时 ,基于 运动 的 聚 类 不 足 简单 的 。 这 是 因为 
我 们 不 能 用 MV 之 辣 的 相似 性 作为 准则 来 进行 聚 类 。 “种 解决 办 法 址 通过 用 像素 邻 域内 的 
MV 匹配 一 个 指定 的 模型 ,为 每 一 个 像素 寻找 一 个 运动 参数 集 。 然 后 我 们 可 以 利用 前 面 描述 
的 冻 类 方法 ,用 运动 参数 矢 直 替换 原始 的 MV。 如 果 原 始 运动 场 是 用 总 阶 模型 的 基于 块 的 表 
示 给 出 的 ,那么 可 以 把 有 相 伺 和 运动 参数 的 块 聚 类 到 同一 个 区 域 帆 ， 类 似 地 ,使 用 基于 网 格 的 运 
动 表示 ,对 于 等 ,个 基于 节点 位 移 的 元 素 , 部 焉 以 导 册 个 运动 参数 集 ,然后 把 具有 相似 参数 
的 元 素 察 类 到 同一 个 区 域 中 。 参 考 文献 [44] 描 述 了 这 种 并 行 的 方法 。 

RE ”通常 ,场景 中 的 运动 场 可 以 分 解 为 层 ,用 第 一 技 表示 主导 的 运动 ,第 一 层 表 水 次 主 
导 的 运动 , 等 等 。 这 里 ,和 运动 的 主导 性 大 由 进行 相应 运动 的 区 域 范围 决定 的 。 主 导 的 运动 通常 
反映 摄像 机 的 运动 , 它 影响 整个 图 像 域 ， 例 如 ,在 网 奈 比 赛 的 视频 剪辑 中 ,背景 将 昆 第 一 层 , 它 
一 般 进行 - 敏 的 全 局 摄像 机 运动 ;运动 员 足 第 二 层 , 它 通常 包 含 相 应 十 身体 不 同 部 位 的 运动 的 
几 个 子 物 体 级 运动 ;球拍 是 第 二 层 ; 奈 是 第 四 层 。 为 了 提取 不 同 层 的 运动 参数 ,我 们 串 以 递归 
地 使 用 6.7.1 节 描述 的 健壮 合计 方法 。 首 先 ,尝试 用 单个 参数 集 来 模型 化 整个 帧 的 运动 场 ,并 
且 连 续 地 从 剩余 的 内 围 居 组 去 掉 外 露 居 像 素 , 直 到 所 有 的 内 转 层 组 小 的 像素 能 够 被 很 好 地 模 
型 化 。 这 将 产生 第 一 个 主导 区 域 (相应 于 内 围 层 区 域 ) 和 与 之 相关 的 运动 。 然 后 对 剩余 的 像素 
《外 露 层 区 域 ) 应 用 同样 的 方法 , 傅 定 # 区 域 久 其 运动 。 持 续 进行 这 个 过 程 直到 没有 人 外露 
层 像素 为 止 。 同 前 而 一 样 ,在 选 代 的 未 尾 可 启用 后 处 理 以 改善 所 得 区 城 的 空间 连通 性 。 这 就 
是 参考 文献 [44] 中 描述 的 顺序 方法 

为 了 使 这 种 并 法 能 很 好 地 工作 ,在 任何 -次 选 代 中 ,内 转 层 区 域 都 必须 明显 大 于 外 露 层 区 
域 。 这 意味 着 最 大 的 区 域 必须 大 于 所 有 其 他 区 域 的 联合 ,次 最 大 区 域 必须 大 于 剩余 区 域 的 联 
合 ,等 等 。 这 个 条 件 企 大 多 数 视频 场景 中 是 满足 的 , 它 道 常 含有 ,个 静止 的 覆盖 大 部 分 图 像 的 
背 时 ,以 及 具有 变化 尺寸 的 不 同 的 运动 物体 。 


6.8.2 联合 区 域 分 割 和 运动 估计 


理论 上 ,我 们 可 以 把 区 域 分 制图 和 每 个 区 域 运动 参数 的 联合 估计 公式 化 为 一 个 最 优化 问 
题 。 最 小 化 日 标 函 数 可 以 是 运动 补偿 预测 误差 和 区 域 平 滑 度量 的 联合 。 然 而 ,因为 很 高 维 的 
参数 空间 和 这 些 参 数 之 问 复杂 的 互相 依 球 关系 , 解 这 个 最 优化 的 门 题 是 内 难 的 。 实 际 上 ,经 党 
采用 次 最 优化 的 六 法 , 它 轮换 地 进行 分 割 估计 利 运动 参数 估计 。 基 于 初始 的 分 割 , 首 先 估计 每 
一 个 区 域 的 运动 。 在 下 一 次 适 代 中 ,优化 这 个 分 划一 一例 如, 炎 掉 每 个 需 测 误 益 大 的 区 域 中 的 
外 锯 层 像素 ,合并 共用 相似 运动 模型 的 像素 。 然 后 重新 估计 每 个 优化 区 域 的 运动 参数 。 持 续 
这 个 过 程 虹 到 分 割 图 不 骨 发 生变 化 为 目 。 

另外 一 个 方法 是 以 分 层 的 方式 估计 区 域 太 其 有 关 的 运动 ,类 做 二 前 茄 所 述 的 分 层 的 方法 。 
这 里 我 们 假定 每 一 个 点 的 运动 矢量 是 已 知 的 ,具有 最 主导 运动 区 域 ( 即 内 峡 层 ) 的 确定 是 由 检 
验 因 使 用 一 个 运动 参数 集 表示 各 个 MY 所 造成 的 匹配 误 益 实 现 的。 这 实质 上 是 6.7.3 节 中 介 
绍 的 间接 健 间 估 计 器 。 在 联合 区 域 分 制 和 运动 估计 方法 中 ,为 了 从 剩余 的 像素 中 提取 次 主导 
区 域 和 相关 的 运动 ,我 们 可 以 使 用 直接 健壮 估计 器 。 即 通过 最 小 化 这 些 像素 的 预测 误差 来 直 
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接 佑 计 运 动 参数 。 参 数 一 量 确定 ,通过 检验 这 个 像素 的 预测 误差 ,我 们 就 可 以 确定 这 个 像素 是 
天 属于 内 围 层 组 。 然 后 通过 只 妃 小 化 内 国 层 像素 的 顶 测 误差 ,来 重新 估计 运动 参数 。 这 种 方 
法 已 经 由 Hsu ，Anandan 和 Peleg[ 18] 采 取 。 


6.9 多 分 辩 率 运动 估计 


从 前 面 几 节 可 以 看 到 ,各 种 运动 估计 的 方法 可 以 简化 为 求解 一 个 混 差 最 小 化 问题 。 有 两 
个 与 得 到 正确 的 解 有 关 的 主要 困难 :(1) 最 小 化 函数 一 般 有 许多 局 部 最 小 ,而 且 不 容易 达到 全 
局 最 小 ,除非 它 很 接近 所 选择 的 初始 解 ;(2) 最 小 化 过 程 所 涉及 的 计算 量 是 很 大 的 。 用 多 分 辨 
府 的 方法 可 以 解决 这 两 个 问题 , 它 以 依次 精细 的 分 辩 率 搜索 最 优化 问题 的 解 。 通 过 首先 搜索 
粗 分 辨 率 的 解 ,通常 可 以 得 到 -- 个 接近 于 真实 运动 的 解 。 此 外 ,通过 把 每 个 较 细 分 辩 率 的 搜索 
限制 在 前 一 个 分 状 率 中 获得 的 解 的 一 个 小 邻 域内 ,与 以 最 细 的 分 辩 率 在 一 个 大 的 范围 内 直接 
搜索 相 比 ,搜索 的 总 数 可 以 降低 。 

在 本 节 中 ,我 们 首先 描述 一 般 背 景 下 运动 估计 的 多 分 辨 率 方法 , 它 可 以 应 用 到 任何 运动 模 
型 。 然 后 我 们 集中 于 块 平移 模型 ,并 描述 一 个 分 层 的 快 匹 配 算法 。 


6.9.1 一 般 公 式 


如 图 6.19 所 示 , 首 先 取得 两 个 原始 赂 像 帆 的 金字 塔 袁 示 ,其 中 每 一 级 都 是 下 面 一 级 的 降低 
分 辩 率 的 表示 , 它 是 通过 袍 间 低 通 滤波 和 亚 采 样 获得 的 。 底 级 是 原 六 图像 。 然 后 估计 两 个 金字 
诺 的 相应 级 间 的 运动 场 ,从 顶级 (最 料 的 ) 开 始 .重复 地 前 进 到 下 一 个 较 细 的 级 。 在 每 一 个 新 的 较 
细 分 辩 率 级 ,对 在 前 一 个 较 粗 分 辨 素 级 得 到 的 运动 场 进 行内 插 , 形 成 当前 级 运动 的 初始 解 。 最 党 
见 的 金 宁 塔 结构 是 , 它 的 分 辨 率 在 相继 级 之 间 的 水 平和 乘 直 方向 上 都 是 减 半 的 。 通 常 ,用 一 个 简 
单 的 2x2 平 均 滤波 器 作为 低 通 滤波 器 ;为 了 获得 更 好 的 性 能 ,可 以 采用 高 斯 渡 波 器 。 
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图 6.19 分 层 的 块 匹 配 算法 的 图 示 
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假定 级 数 是 工 ,以 第 工 组 为 原始 图 牺 。 令 锚 定 帧 和 日 标 帧 的 第 【级 网 像 表示 为 光 :Kx)， 
xEA,, 651.2, FEP A, 是 第 1 级 的 像素 集合 。 用 dy (x) RAIA 1 级 到 第 1 | 级 获得 的 全 
部 的 运动 场 。 在 第 1 级 ,我 们 首先 把 由 -,(x) 内 插 到 级 工 的 分 辩 闻 ,以 产 牛 一 个 初始 运动 估计 
(x) = Ud, 090), 共 由 M 表 拓 内 捅 算 子 。 然 后 确定 这 -级 的 更 新 a, (x) ,使 误差 : 


X Kt dR) + aie) — YG) 1 (6.9.1) 


为 最 小 - 这 一步 以 后 得 到 的 新 运动 荔 足 dy OO) = qu (x) +d, (x)。 当 相继 的 精 纳 化 完成 以 后 ,在 
最 精细 的 分 辩 率 上 总 的 运动 是 : 


d(x) = a, (x) +g, 00 + UC q(x) + UC (xX) + OX) (6.9.2) 


这 个 程序 的 初始 条 件 足 (x) =0。 我 们 可 以 直接 指定 总 运动 d(x), 或 者 指定 在 所 有 级 上 的 运 
动 更 新 负 (x) ,=1,2,…, 上。 上 后 省 表示 分 层 结构 的 运动 ,在 需 监 渐进 地 恢复 运动 场 的 应 用 中 
希望 使 用 这 种 表示 。 

多 分 准 率 方法 的 优点 是 双重 的 。 首 先 ,最 小 化 的 问题 在 较 粗 分 辨 率 下 比 在 较 细 分 辨 率 下 
状态 要 好 ; 国 此 ,在 较 粗 级 上 得 到 的 解 更 有 可 能 接近 该 分 辩 率 的 真正 的 解 。 这 个 解 到 下 一 个 分 
办 率 级 的 内 质 则 提供 一 个 哆 接近 该 级 真正 解 的 初始 解 。 重 复 这 个 相继 的 从 最 粗 到 最 细 分 辩 率 
的 步骤 ,在 最 组 分 辨 素 上 得 刘 的 解 就 很 可 能 接近 真正 的 解 (全 局 晤 小 )。 第 二 ,在 每 个 分 辩 率 级 
上 的 合计 可 以 被 限制 在 比 最 细 分 辨 它 上 的 真正 运动 区 域 小 很 多 的 搜索 范围 内 ,使 得 要 实施 的 
搜索 总 数 比 在 最 细 分 辨 率 上 直接 搜索 所 需 的 搜索 数 要 小 。 实 际 的 搜索 数 依赖 于 设置 在 不 同 级 

图 像 处 理 的 多 分 辩 紊 表示 首先 由 Burt 和 Adelson[61 介 绍 。 在 运动 估计 中 的 应 用 依赖 于 使 
用 的 运动 模型 。 在 前 面 的 表述 中 ,我 们 假定 所 有 像素 的 MV 都 是 要 被 估计 的 。 这 个 算法 可 以 
很 容易 地 修改 为 估计 基于 块 .基于 网 格 , 全 局 或 物体 级 的 运动 参数 .因为 块 平移 运动 借 型 在 实 
鞭 应 用 中 是 非常 流行 的 ,所 以 下 向 我 们 较 详细 地 琅 虞 这 种 特殊 的 情况 。 


6.9.2 分 层 块 匹配 算法 


如 6.4.1 节 所 指出 的 ,使 用 穷尽 搜索 法 得 到 块 运动 矢量 (MY) 需 要 极 大 的 计算 量 。 除 此 以 
Sh AIT HIER MY 经 常会 导 敏 混乱 的 运动 场 。 在 本 节 中 ,我 们 介绍 -种 分 层 的 块 匹 配 算 法 (HB- 
MA) , 它 基 刚刚 介绍 的 多 分 辨 华 方法 的 一 种 特殊 情况 。 这 里 , 铺 定 帕 和 目标 帧 都 用 金字 塔 表 
示 ,EBMA 或 它 的 快速 变 体 之 “被 用 来 估计 金字塔 中 每 一 级 的 块 的 YY。 图 6.19 示 出 了 这 个 
过 程 ,此 时 金字 塔 每 增加 一 级 ,空间 分 辨 华 在 水 平和 垂 衣 放 向 减 半 。 这 里 ,我 们 假定 在 不 同 的 
级 上 使 用 同样 大 小 的 块 ,从 而 每 一 维 上 抉 的 数量 也 要 减 半 。 令 在 级 EB (mn) MV 用 
.an 表示 。 从 级 1 开始 ,首先 寻 我 在 这 -级 中 所 有 块 的 MY 。,， 在 每 一 个 新 级 1 > 1, 对 得 
个 块 , 它 的 初始 MV 到 ,。, 是 根据 下 式 用 级 ! - 1 中 相应 的 块 内 栖 得 到 的 ， 





















































nn = ACh wz)=2d 4 waa (6.9.3) 


然后 搜索 到 一 个 校正 矢 其 Qima ,得 到 最 终 估 计 的 MV: 
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me = din + Arma {6.9.4) 


例 6.3 在 图 6.20 中, 我们 示 出 了 两 个 32x32 的 视频 帧 ,图 中 锚 定 帧 中 的 灰 块 运动 的 位 移 为 
(13,11)。 我 们 说 明 如 何 使 用 三 级 HBMA 售 计 决 的 运动 场 。 每 一 级 使 用 的 块 的 大 小 是 
4x4, 搜 索 的 步 长 是 一 个 像素 。 从 第 一 级 开始 ,对 于 锚 定 帧 的 块 (0,0) ,找到 的 MY 是 doo 
= 由 =(3,3)。 当 进入 第 二 级 时 ,对 于 块 (0,1) ,MTV RABY doy =U Cd oo) =2d, = 
《6,6)。 从 这 个 初始 的 MV 开始 ,找到 的 校正 失 量 是 中 = (],，-1)。 得 到 最 终 估计 的 MV 
Gyo: 2d, = (7,5)。 最 后 ,在 第 三 级 , 块 (1,2) 的 MV ADEE dia =U (doi) = 2d = 
(14,10), BREE = (一 1,1), 最 后 估计 的 MV Bd, =d, = (13,11). 
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图 6.20 一 个 三 级 HBMA 块 运 动 估计 的 例子 ( 见 例 6.3) 


注意 ,在 级 ! 使 用 一 个 宽度 为 N 的 块 相 应 于 全 分 辩 率 下 -个 宽度 为 2.-'N 的 块 。 同 样 的 比 
例 适用 于 搜索 范围 和 步 长 。 因 此 ,通过 在 不 同 的 级 使 用 同样 的 块 大 小 .搜索 范围 和 步 长 ,我 们 实 
际 上 是 在 搜索 开始 的 时 候 使 用 较 大 的 块 , 搜 索 范 瑟 和 步 长 ,然后 在 以 后 的 步 又 中 逐渐 缩小 它 作 
CBE). 

HBMA 中 涉及 的 运算 数 依赖 于 每 一 级 的 搜索 范围 。 如果 在 最 细 分 辩 率 下 期 望 的 搜索 范围 
是 R, 那 么 对 于 一 个 上 级 的 金字 塔 ,我 们 可 以 设 定 第 一 级 的 搜索 范围 是 Rf2:-'。 对 十 璋 下 的 
级 ,因为 由 前 一 级 内 插 得 到 的 初始 MY 通常 相当 接近 真正 的 MYV, 所 以 校正 矢量 的 搜索 范围 不 
需要 很 大 。 然 而 为 简单 起 见 ,我 们 假定 每 一 级 都 使 用 Ri2-' 的 搜索 范围 。 如 果 图 像 的 大 小 是 
Mx ,每 一 级 抉 的 大 小 是 W x WwW, 那么 第 了 级 的 块 数 是 (M12'N, 搜索 的 次 数 是 











































































































144 视频 处 理 与 通信 








(Mi2'-'N)*+ (28A24-1 + 1)。 因 为 每 一 次 搜索 所 需 的 运算 数 是 注 ,所 以 总 运算 数 是 : 











i 
San rare +1? = 40-4) eRe +1) 


im 
= {yuvam R 

















回忆 EBMA 的 运算 量 是 M (2R +1) 4 RR( 见 6.4.1 节 )。 因 此 采用 上 述 参 数 选择 的 分 层 
方法 将 减少 计算 量 3.4"? 倍 。 级 上 的 典型 数值 是 2 或 3。 


例 6.4 图 6.21 示 出 了 对 于 图 6.8 所 给 出 的 视频 帧 ,用 HBMA 方法 获得 的 估计 结果 。 在 这 个 
例子 中 ,使 用 了 三 级 金字 塔 。 每 一 级 的 搜索 范围 设置 为 4, 从 而 在 原始 分 辩 率 下 的 等 效 搜 
索 范围 为 R= 16。 在 所 有 的 级 都 使 用 整数 像素 精度 搜索 。 最 后 的 整数 精度 解 在 一 个 像素 
的 搜索 范围 内 用 半 像 素 精 度 搜索 进一步 优化 到 半 像 素 精度 。 将 这 个 最 后 一 级 的 结果 与 图 
68(c) 和 (d) 所 示 的 结果 相 比 较 , 我 们 可 以 看 到 多 分 辨 率 方法 确实 能 够 给 出 比 
EBMA 法 更 加 平滑 的 和 运动场。 视觉 观察 也 可 以 发 现 这 个 运动 场 更 真实 地 表示 了 图 6.8(a) 





























图 6.21 对 于 图 6.8 所 示 的 两 个 图 像 用 HBMA 进行 运动 估计 的 例子 : (a,b) 第 一 级 的 运动 场 和 预测 图 像 ， 
(c,d) 第 二 级 的 运动 场 和 预测 图 像 ;(e,f) 最 后 一 级 的 运动 场 和 预测 图 像 (PSNR = 29.32), 
这 里 使 用 的 是 三 级 HBMA 算 法 ;所 有 级 上 的 块 大 小 都 是 16 x 16。 所 有 级 的 整数 像素 精 
度 的 搜索 范围 都 是 4。 最 后 一 级 的 结果 用 半 像 素 精度 搜索 在 + 1 的 区 域内 进一步 优化 
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和 (b) 的 两 个 图 像 症 之 间 的 运动 。 息 管事 实 是 EBMA 得 到 了 较 高 的 PSNR, 这 也 是 正确 的 。 
从 计算 的 复杂 性 来 说 ,用 于 图 6.8(c,d) 的 半 像 素 精 度 EBMA 需要 352 x 288(4R +1)? = 
4.31+8 次 运算 ,然而 如 果 我 们 忽略 最 后 的 用 半 像 素 搜索 的 再 精细 化 步 又 ,这 里 所 用 的 三 


、 4 R 2 wets 
级 算法 只 需要 了.352x288( 7+1) =1.1E +7 次 运算 。 


有 许多 不 同 的 HBMA XH, Bierling 首先 将 这 个 嘎 想 应 用 于 基于 块 的 运动 模型 [5]。 分 层 
BMA 的 特殊 情况 被 称 为 可 变 尺 才 或 四 叉 树 BMA, EAB BR oh Pe ,然后 重复 纸 把 
一 个 块 分 成 四 坪 , 只 要 这 个 块 的 匹配 误差 仍 比 一 个 阅 值 大 。 在 这 种 情况 下 ,所 有 的 处 理 都 是 在 
原始 图 像 的 分 辩 率 上 进行 的 。 


6.10 运动 估计 在 视频 编码 中 的 应 用 


在 任何 视频 编码 系统 中 运动 估计 都 是 一 个 关键 部 分 。 正 如 将 要 在 9.3.1 节 讨论 的 ,高 效 的 
视频 编码 方法 要 使 用 块 时 间 预 测 ,在 这 种 方法 中 ,将 要 编码 的 帧 中 的 顽 旦 由 前 面 的 编码 帧 中 与 它 
相应 的 块 预测 出 来 的 ,前 而 的 编码 帧 称 为 参考 帧 ,然后 预测 误差 被 编码 。 为 了 编码 预测 误差 的 
比特 率 最 小 化 ,用 适当 的 运动 估计 准则 最 小 化 预测 误差 。 在 这 类 应 用 中 ,估计 的 运动 场 不 必 与 真 
实 的 运动 场 相像 。 因 此 , 鼎 匹 配 算法 (EBMA 及 其 包括 HBMA 的 快速 变 体 ) 可 提供 简单 而 有 效 的 
解 。 除 了 把 每 个 抉 估计 出 的 MV 直接 用 于 该 块 的 预测 以 外 ,还 可 以 基于 为 它 的 相 邻 岂 估 计 的 MY 
使 用 这 些 预 测 值 的 加 权 平 均 。 这 被 称 为 重要 块 运动 补偿 ,将 在 9.3.2 节 中 讨论 。 

注意 ,在 这 个 视频 编码 方法 中 ,除了 预测 误差 要 编码 以 外 ,MY 也 必须 编码 。 因 此 ,单独 最 小 
化 项 测 误差 不 是 要 用 的 最 寻 的 准则 。 由 于 较 平滑 的 运动 场 需要 较 少 的 编码 比特 ,如 果 适 当地 在 
估计 的 运动 场 中 施加 平滑 性 ,能 有 助 于 提高 整体 的 编码 效率 。 因 此 先进 的 运动 估计 算法 是 通过 
最 小 化 用 于 编码 MV 和 项 测 误差 的 总 比特 率 工 作 的 。 这 个 课题 将 在 9.3.3 节 进 一 步 讨 论 。 

为 了 克服 由 基于 块 的 运动 估计 方法 产生 的 块 效应 ,可 以 应 用 高 阶 基于 块 (DBMA) .基于 网 格 ， 
或 者 联合 应 用 基于 块 .基于 网 格 和 /或 DBMA 方法 。 然 而 ,这 些 较 复 杂 的 方法 一 般 都 不 会 使 编码 
效率 有 显著 的 提高 。 

在 较 先 进 的 视频 编码 方法 (第 10 章 将 介绍 ) 中 ,通常 在 基 十 块 的 运动 估计 之 前 ,把 全 局 运 
动 估计 (6.7 节 ) 用 于 整个 帧 ,以 补偿 摄像 机 运动 的 影响 。 而 且 ,整个 帧 通常 分 割 成 几 个 区 域 或 
物体 ,用 6.8 节 介绍 的 基于 区 域 的 运动 估计 法 估计 每 一 个 区 域 或 物体 的 运动 参数 。 





















































6.11 小 结 


图 像 亮度 与 运动 之 间 的 关系 {6.1 节 ) 


® 几乎 所 有 的 运动 估计 算法 部 基于 恒定 亮度 假定 (公式 6.1.5 或 5.2.11) ,或 者 基于 这 个 
假设 导出 的 光 流 方程 (公式 6.1.3)。 这 使 我 们 能 够 依据 一 些 运 动 模型 ,通过 确定 具有 相 
似 亮 庶 的 像素 估计 运动 。 注意 ,这 种 假设 仅 当 照明 源 是 环境 的 和 时 不 变 的 ,而 且 物 体 表 





D 见 6.2 节 的 脚注 - 
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面 是 漫 反射 的 情况 下 才 成 立 (5.2 节 )。 
当 运 动 方向 于 直 于 图 像 亮度 的 梯度 时 ,或 考 图像 梯度 为 零 时 ,运动 不 会 引起 图 像 亮 度 变 
化 。 这 是 基于 亮度 的 运动 估计 方法 的 固有 限制 。 





运动 估计 中 的 关键 元 素 


6.12 


6. 


6 


适 动 表示 (6.2.1 节 ): 这 依赖 于 用 来 划分 帧 的 分 割 方法 (基于 像素 ,基于 块 .基于 网 格 、 基 
于 区 域 . 金 局 )、 每 一 个 分 割 区 域 所 用 的 运动 模型 ( 块 网 格 元 素 、 物 体 区 域 .或 整个 帧 ) 和 
在 邻近 区 域 运动 之 间 的 约束 。 不 同 的 运动 表示 导致 不 同 的 运动 估计 方法 ,包括 基于 像 
索 (6.3 节 ) .基于 块 (6.4~6.5 节 ) . 基 上 网 格 (6.6 节 )、 基 于 区 域 (6.8 节 ) 和 全 局 运动 估 
计 (6,7 WW). 
这 动 估计 准则 (6.2.2 节 ): 我 们 给 出 了 估计 每 个 区 威 上 的 运动 参数 的 三 个 准则 :(1) 最 小 
E DFD 误差 ( 当 运 动 较 小 时 ,这 等 价 于 基于 光 流 方程 的 方法 );(2) 当 最 小 化 DED RE 
时 ,使 产生 的 运动 场 穿越 区 戚 时 尽 可 能 平滑 ;(3) 对 于 给 定 的 观测 帧 ,最 大 化 运动 场 的 后 
验 概 率 。 我 们 说 明了 (3) 实 质 上 需要 (1) 和 (2)。 除 了 最 小 化 DFD 以 外 , 当 区 域 中 的 运动 
是 纯 平移 时 ,我 们 也 可 以 检测 相位 相关 商 数 中 的 峰值 

最 优化 方法 (6.2.3 节 ) ;对 于 选 定 的 表示 和 准则 ,运动 估计 问题 通常 转化 为 一 个 最 优化 
《最 小 化 或 最 大 化 ) 问 题 , 它 可 以 用 穷尽 搜索 或 基于 梯度 的 搜索 来 实现 。 为 了 加 速 搜索 
和 和 避免 陷入 到 局 部 最 小 ,可 以 使 用 多 分 辨 率 方 法 (6.9 节 )。 





























习题 





-1 人 氢 述 不 同 运动 表示 方法 (基于 像素 .基于 块 、 基 于 网 格 .基于 区 域 和 全 局 ) 的 优点 和 





缺点 。 


:2 氢 述 穷尽 搜索 和 梯度 下 降 法 的 优点 和 缺点 。 同 时 ,比较 一 阶 和 二 阶梯 度 下 降 法 。 
-3 与 单 分 辨 率 方法 相 比 ,多 分 辩 率 估计 方法 的 主要 优点 是 什么 ? 它 有 什么 缺点 吗 ? 
-4 在 6.3.2 节 ,我 们 用 梯度 下 降 法 导出 了 多 点 邻 域 法 。 用 光 流 方程 能 找到 一 个 封闭 形 


式 的 解 吗 ?在 什么 条 件 下 这 个 解 是 成 立 的? 


-5 在 6.4.1 节 中 ,我 们 描述 了 用 基于 块 的 运动 表示 来 确定 块 MV 的 一 个 穷尽 搜索 算 


法 。 用 光 流 方程 能 找到 一 个 封闭 形式 的 解 吗 ” 在 什么 条 件 下 这 个 解 是 成 立 的 ? 


6 在 公式 (6.2.7) 中 ,我 们 说 明了 如 果 运 动 场 是 一 个 常量 ,可 以 用 光 流 方程 建立 -个 最 


小 平方 问题 ,并 获得 一 个 封闭 形式 的 解 。 假 定 运动 场 不 是 个 常量 ,但 是 能 用 多 项 
式 映 射 来 模 现 化 。 能 为 多 项 式 系数 找到 一 个 封闭 形式 的 解 吗 ? (提示 : 作 何 多 项 式 
映射 两 数 都 能 表示 成 Ux;a) =[A(x)]a, 其 中 a 包含 所 有 的 多 项 式 系数 。) 

7 在 6.4.5 节 我 们 说 过 , 当 在 加 (x) 的 区 域 块 中 有 几 个 进行 不 同 运动 的 小 块 时 ,在 PCF 
中 将 会 有 几 个 峰值 。 每 一 个 峰值 对 虚 于 一 个 小 块 的 运动 。 峰 值 的 位 置 指示 小 块 的 
MV, 而 峰值 的 幅度 与 小 块 的 尺寸 成 比例 。 请 至 少 定性 地 证 明 这 个 陈述 。 为 简化 扒 
导 , 可 以 只 考虑 一 维 的 情况 。 








-8 对 于 EBMA ,计算 需求 依赖 于 块 的 大 小 吗 ? 
-9 在 6.9.2 节 中 ,我 们 导出 当 每 一 级 的 搜索 范围 是 R2 i, HBMA 所 需要 的 运算 次 
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数 。 如 果 除 了 第 一 级 搜索 范围 设置 为 Rf2“' 以 外 ,我 们 在 每 -级 所 用 的 搜索 范围 是 
<+1 个 像素 ,所 需要 的 运算 次 数 是 多 少 呢 ? 这 种 参数 建立 得 是 合适 当 ? 

考虑 一 个 Y 分 基 帧 的 大 小 为 720 x 480 的 BT. 601 格式 视频 。 比 较 一 个 抉 尺寸 为 
16x 16 的 EBMA 算法 ( 整 像素 ) 与 两 级 HBMA 算法 所 需要 的 计算 量 。 假 定 最 大 运动 
范围 是 +32。 可 以 用 运算 数 来 比较 计算 量 , 每 一 次 运算 包括 一 个 碱 法 .一 次 绝对 值 
计算 和 一 次 加 法 。 你 可 以 自己 假设 HBMA REA EAE RI. TR, A 
略 产生 人 金字塔 所 需 的 计算 ,并 假定 只 进行 整数 像素 搜索 。 
对 于 三 级 HBMA 算法 ,重复 习题 6.10。 

写 出 用 整数 像素 精度 实现 EBMA 的 C 或 者 MATLAB 代码 。 用 16x 16 MRR, % 
序 应 该 允许 用 户 选择 搜索 范围 ,因此 可 以 比较 用 不 同 搜索 范围 所 得 的 结果 (注意 , 合 
适 的 搜索 范围 依赖 于 试验 图 像 中 的 运动 范围 ) 。 把 这 个 程序 应 用 于 视频 序列 的 两 个 
相 邻 的 帧 。 程 序 应 该 产生 并 绘制 估计 的 运动 场 .预测 的 图 像 和 预测 误差 的 图 像 。 它 
也 应 该 计算 预 浏 帧 与 原始 锚 定 巾 相 比 的 PSNR。 对 于 MATIAB, 可 以 使 用 函数 quiver 
绘制 运动 场 。 

对 于 半 像 素 精度 的 EBMA 重复 习题 6.12。 比 较 用 整数 像素 精度 与 用 半 像 素 糖 度 获 
得 的 预测 图 像 的 PSNR。 哪 一 种 方法 有 更 精确 的 预测 ? 哪 一 种 方法 需要 更 多 的 计算 
时 间 ? 
由 基于 块 的 运动 场 的 空间 内 插 , 可 以 得 到 高 密度 的 ( 即 基于 像素 的 ) 运 动 场 。 写 出 能 
够 对 习题 6.12 得 到 的 运动 场 进行 内 插 的 C 或 者 MATLAB 代码 ,很 定 每 个 块 的 MV 
实际 上 是 这 个 块 中 心 的 MV。 使 用 双 线 性 内 播 。 用 内 插 的 像素 运动 场 .可 以 再 -次 
得 到 预测 图 像 和 预测 误差 图 像 。 将 在 习题 6. 12 和 6.13 中 得 到 的 运动 场 .预测 图 像 
和 政 测 误差 图 像 与 这 里 得 到 的 进行 比较 。 哪 一 种 方法 有 更 粮 确 的 预测 ? 哪 一 种 方 
法 需要 更 多 的 计算 时 间 ? 
H C ERA MATLAB 代码 实现 HBMA 算法 。 可 以 选择 使 用 两 级 或 者 三 级 分 辩 率 。 可 
以 在 所 有 级 上 使 用 整数 像素 搜索 ,但 是 在 + 1 邻 域内 用 半 像 素 精度 搜索 优化 最 后 的 
结果 。 所 有 级 上 使 用 的 块 的 尺寸 都 是 16 x 16。 搜 索 范围 的 选择 应 该 使 等 效 的 原始 
分 辩 率 搜索 范围 为 上 32。 在 精度 和 计算 时 间 方 面 , 将 这 个 结果 与 在 习题 6. 12 和 6.13 
中 得 到 的 结果 进行 比较 。 

在 6.7 节 , 我 们 说 公式 (6.7.2) 中 的 匹配 误差 是 用 公式 (6.7.3) 中 得 到 的 解 最 小 化 
的 。 证 明 这 个 结果 。 

假定 两 帧 之 间 的 运动 可 以 用 一 个 全 局 仿 射 模型 来 模型 化 。 我 们 想 基于 DFD 准则 直 
接 估计 仿 射 参数 。 建 立 这 个 最 优化 问题 ,并 且 导 出 一 个 解 这 个 最 优化 问题 的 迭代 等 
法 。 可 以 使 用 一 阶梯 度 下 降落 或 者 牛顿 -拉夫 森 方 法 。 气 出 实现 你 的 程序 的 C 或 
者 MATLAB 代码 。 把 它 应 用 在 进行 摄像 机 运动 的 两 个 视频 帧 上 。 将 产生 的 运动 场 
和 预测 帧 与 用 EBMA 得 到 的 结果 进行 比较 。 

重复 习题 6.17, 但 是 使 用 间接 方法 从 给 定 的 块 MV 导出 仿 射 参数 。 导 出 回 妇 方程 和 
封闭 形式 的 解 。 写 出 实现 你 的 算法 的 C 或 者 MATLAB 代码 。 可 以 使 用 前 面 为 整数 
像素 EBMA 编写 的 代码 产生 块 MV。 把 这 里 获得 的 结果 与 直接 方法 获得 的 结果 进行 
比较 (习题 6.17)。 
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三 维 运动 估计 允许 描述 一 个 三 维 空间 物体 的 运动 一 一 这 个 运动 由 运动 物体 的 图 像 进行 估 
计 。 它 在 计算 机 视 党 应 用 中 用 于 物体 跟踪 (如 在 车 辆 制导 和 机 器 人 技术 中 ) ,以 及 在 基于 物体 
的 视频 编码 中 用 于 物体 跟踪 和 运动 补偿 。 在 一 些 应 用 中 ,是 运动 的 摄像 机 穿 过 静止 的 场景 ;在 
另 一 些 应 用 中 , 则 是 静止 的 摄像 机 观测 运动 的 物体 。 对 于 一 些 例如 飞机 监测 的 应 用 中 ,摄像 机 
和 物体 都 是 运动 的 。 

与 一 维 运动 估计 一 样 ,三 维 运动 估计 是 一 个 病态 的 问题 。 为 了 保证 得 到 有 用 的 解 ,我 们 做 
出 - - 些 简化 的 假设 一 一 例如 刚性 物体 ,通常 是 已 知 形状 的 。 任 务 是 估计 公式 (5.3.9) 中 给 出 的 
物体 的 六 个 运动 参数 。 如 果 物体 的 形状 是 未 知 的 ,大 多 数 算法 假设 物体 的 形状 是 平面 或 是 掀 
物 线 的 

对 于 二 维 运动 估计 ,可 以 用 主 交 或 者 透视 投影 作为 摄像 机 模型 。 显 然 使 用 正 交 投 影 可 简 
化 估计 过 程 。 然 而 , 正 交 投影 不 允许 我 们 观测 深度 ,并 旦 如 果 物 体 泊 着 摄像 机 光 轴 运动 或 者 是 
绕 着 一 个 不 是 光 轴 的 轴 转 动 ,就 会 产生 估计 误差。 

另 一 种 三 维 运动 估计 算法 的 分 类 包括 直接 方法 (用 图 像 信号 作为 其 输入 ) 和 间接 方法 ( 依 
束 于 用 一 个 分 离 算 法 (例如 块 中 配 或 特征 匹配 ) 建 立 的 特征 对 应 )。 在 7.1 节 中 ,我 们 将 讨论 用 
特征 对 应 (feature correspondence) 估 计 运 动 的 算法 。 估 计 的 运动 参数 的 精度 在 很 大 程度 上 依赖 
于 特征 对 应 的 精度 。 给 定 这 些 对 应 ,这 个 算法 就 可 以 很 容易 地 估计 大 的 运动 了 。 由 于 运动 不 
是 直 捷 由 图 像 信号 ,而 是 由 从 图 像 信 号 得 到 的 特征 估计 出 来 的 ,我 们 称 这 种 算法 为 间接 运动 估 
计 方法 。 在 7.2 节 中 ,我 们 给 出 直接 运动 估计 方法 。 这 种 方法 的 优点 是 不 依赖 于 特征 的 对 应 。 
然而 ,这 种 算法 只 能 估计 小 的 运动 。 因 此 ,经 常用 在 一 个 迭代 估计 循 坏 中 。 




































































7.1 基于 特征 的 运动 估计 


基于 特征 的 估计 假设 一 个 物体 上 的 同样 的 特征 已 经 在 两 个 图 像 中 被 识别 出 来 。 为 了 允许 
可 靠 的 特征 检测 ,这 些 特征 通常 相应 于 必须 估计 运动 的 物体 上 的 物理 标志 。 特 征 可 以 被 描述 
为 图 像 平面 中 的 点 、 线 或 角 ( 线 之 间 的 连接 )。 在 图 像 平 面 中 ,位 移 矢 量 可 以 用 来 建立 特征 点 之 
间 的 对 应 。 特 征 的 对 应 可 以 用 简单 的 块 匹配 确定 。 如 果 把 匹配 限制 于 具有 高 空间 梯度 的 图 像 
区 域 中 ,就 可 以 得 到 比较 可 靠 的 结果 。 因 此 我 们 首先 提 到 两 个 图 像 的 边缘 ,然后 尝试 匹配 这 些 
边缘 。 本 节 将 把 我 们 的 讨论 限制 在 依赖 于 特征 对 应 的 算法 上 。 对 于 线 和 角 对 应 的 讨论 , 见 参 
考 文献 [2] 或 参考 文献 [11] 中 的 综述 。 

在 后 面 的 几 节 中 ,我 们 将 讨论 基于 特征 运动 估计 的 4 个 算法 。 每 个 算法 都 假设 针对 的 是 
刚性 的 三 维 物体 。 第 一 个 算法 (7.1.1 节 ) 假 设 具 有 正 交 投影 的 摄像 机 模型 和 已 知 物体 形状 。 
第 二 个 算法 (7.1.2 节 ) 假 设 具 有 透视 投影 的 摄像 机 模型 和 已 知 物体 形状 。 第 二 个 算法 (7.1.3 
节 ) 通 合 于 能 用 平面 近似 的 物体 。 最 后 ,我们 给 出 一 个 基于 透视 投影 和 不 需要 任何 关于 物体 形 
状 知识 的 算法 (7,1,4 节 )。 
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7.1.1 正 交 投影 下 已 知 形状 的 物体 


在 本 节 中 ,我 们 假设 知道 运动 物体 的 形状 。 因 此 对 于 图 像 寺中 的 每 个 点 x= [x.y 1? 
们 知道 与 x 相 联 系 的 物体 表 库 点 的 宇 维 坐标 义 = X,Y,Z] 根据 图 5.2 (b) 利 公式 (5.1.3)， 
我 们 采 甩 一 个 止 交 投影 的 揽 像 机 模 塌 。 使 用 这 个 摄像 机 模型 和 二 维 运动 的 公式 (5.3.9) ,运动 
前 后 点 义 到 图 像 平 自 的 映射 变 成 : 





























nxtrnyt(rZ+T,) 


ee] At) 
其 有 旋转 年 阵 : 
ry Fa nn 
wel rs i (7.1.2) 
mm Tg h 


根据 公式 (5.3.6) 和 平移 失 量 了 =[ 和 ,了 ,7T.]?。 这 是 赂 像 k PAI x EJER k AJR x? 
的 个 仿 英 映射。 按照 公式 (5.3,6) ~ (5.3.10) , 线 件 化 旋转 矩阵 的 元 素 rn ,我 们 得 到 x 与 x’ 
之 问 的 仿 射 关系 : 


(=) -人 T.) 


Nxt y- (0247) (7.1.3) 


y 





给 定 至 少 三 点 的 对 应 ,使 用 最 小 平方 法 ,5 个 未 知 运 动 参数 9. ,9, .9. AT. T, 的 解 可 以 估计 出 
来 。 为 了 提高 估计 运动 参数 的 可 靠 性 ,建议 最 少 使 用 6 个 对 应 。 

公式 (7.1,3) 使 用 线性 化 以 后 的 旋转 矩阵 。 因 此 估计 的 运动 参数 只 能 近似 于 真实 的 运动 
参数 ,而 且 为 了 估计 大 的 运动 参数 ,算法 必须 采用 迁 代 的 形式 。 每 一 次 迭代 ,估计 的 运动 参数 
部 会 减少 ;出 填 使 用 线性 化 的 旋转 入 阵 ,误差 也 会 碱 小 。 - 旦 运动 参数 的 更 新 值 为 零 , 选 代 就 
应 该 停止 了 。 在 7.3 节 中 ,我们 给 出 一 个 更 县 体 的 迁 代 运动 估计 的 例子 。 

在 公式 (7.1.3) 中 ,运动 参数 8. AO, 被 乘 以 摄像 机 中 心 到 物体 表面 点 X ZES Zo 
内 此 ,具有 当 物 体 的 形状 和 Z 是 精确 已 知 的 , 才 可 以 精确 估计 8. 和 8 。 由 于 物体 的 形状 (或 
它 的 深度 ) 并 人 不 总 是 已 知 的 ,已 经 提出 了 几 个 佑 计 物 体 撒 状 连 洞 其 运动 估计 方法 的 建议 。 在 参 
泥 文 献 [1] 中 ,提出 了 每 次 选 代 的 两 步 方 法 ,首先 估计 运动 参数 ,然后 更 新 物体 的 深度 估计 。 在 
参考 文献 [4] 中 ,提出 了 进一步 的 改进 ,根据 误差 两 数 的 梯度 更 新 深度 估计 2。 如 果 不 能 利用 
合理 的 深度 估计 ,对 于 主要 平行 于 图 像 平面 六 移 和 线 报 像 机 轴 转 动 的 物体 ,可 以 使 用 公式 
47.1.3)。 也 就 是 说 ,我 们 假设 8. =& =0, 并 日 只 合计 8., T, MT, o 


7.1.2 透视 投影 下 已 知 形状 的 物体 


为 了 对 己 知 形状 的 三 维 物 体 的 代 意 运动 进行 估计 ,我 们 假设 一 个 已 知 点 EDARAN 
位 置 六 。 使 用 公式 (5.1.2) 的 透视 投影 的 摄像 机 模型 把 X' 投 影 到 图 像 平面 十 得 到 : 
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< on 


如 果 现 在 用 三 维 运动 方程 (公式 (5.3.9)) 把 XERA X, RIEA: 


门下 + myY+nmZ+ 了 了 

yA trygVt+roZ+T, ` 
war (1.1.5) 

aX +rsY+rZ+T, 

yXtrgVtroZt fF, 


URL Boe 0,0,0. To T,, 7, BMX ROA. WT A EARE 
这 个 方程 ,根据 公式 (3.3.10) ,我 们 假设 小 的 转动 角度 并 使 用 线性 旋转 矩阵 。 这 就 得 到 ， 


X-0,Y+6,2+7, 
-OX46Y4+Z4T, 
x's F- (7.1.6) 
6X+Y-6,2+T, 
~OX+OY+ 247, 























进一步 计算 以 后 ,我 们 得 到 : 
x -Y$ 2+x%5 -YY 10 -||e 
z = ， HE (7.1.7) 
YY L-z-y= x% x 01 -¥]/% 


其 中 点 x' 和 义 是 已 知 的 ,而 6 个 运动 参数 是 未 知 的 。 与 前 面 一 样 ,每 个 点 的 对 应 提供 两 个 方 
程 。 为 了 允许 特征 点 估计 的 不 准确 性 ,应 该 对 三 个 以 上 的 点 用 最 小 平方 算法 解 方程 (7.1.7)。 
由 于 使 用 了 线性 旋转 矩阵 ,我 们 必须 送 代 地 估计 运动 参数 。 


7.1.3 平面 物体 


估计 在 空间 做 任意 运动 的 平面 的 运动 参数 是 一 个 重要 的 和 问题。 通常 我 们 用 一 个 或 者 更 多 
的 平面 来 近似 物体 的 表面 。 例 如 ,如 果 用 线 框 近似 物体 表面 ,那么 线 框 上 的 每 一 个 三 角形 表示 
-小 块 平 面 。 这 个 算法 不 假设 空间 平面 方位 的 任何 知识 。 因 此 ,我 们 将 估计 确定 平面 方位 和 
运动 的 8 个 参数 。 

假设 摄像 机 模型 具有 按照 公式 (5.1.2) 的 透视 投影 ,按照 公式 (5.3.9) 做 刚性 物体 运动 ,并 
. 且 设 物体 平面 为 : 









































aX+ b¥+cZ=1 (7.1.8) 


我 们 就 可 以 把 点 x 从 图 像 k PER k + 1 的 映射 描述 为 如 公式 (5.5.14) 所 给 出 的 投影 映射 
[17,5]: 














pyr _[ Got aaxtary dbo tb x+by 
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具有 8 个 未 知 的 运动 和 结构 参数 a, , ,ci( 有 时 称 为 纯 参数 [18])。 

用 至 少 四 个 点 的 对 应 ,我 们 就 可 以 解 这 些 纯 参 数 ， 如 果 我 们 限制 于 由 个 点 的 对 应 ,就 不 驳 
许 四 个 点 中 有 三 个 点 是 共 线 的 [6]。 为 了 增加 结果 的 可 靠 性 ,我 们 建议 使 用 8 个 以 上 的 对 应 ， 
fF 有 .使 用 最 小 平方 法 解 这 些 纯 参数 。 
在 参考 文献 [20] 中 ,Tsai 和 Huang 使 用 奇异 值 分 解 (SYD) 由 8 个 纯 参 数 估 计 三 维 运动 参数 
和 物体 平面 的 方位 。 只 有 纯 参 数 能 够 可 靠 地 估计 出 来 ,这 种 方法 十 是 有 用 的 。 : 意 这 种 佑 
计 纯 参数 的 算法 不 容易 用 于 物体 跟踪 。 由 两 幅 图 像 进 行 参 数 估计 以 后 ,物体 的 方位 就 周 定 了 。 
此 ,下 一 幅 图 像 就 只 有 6 个 参数 需要 合计 了。 如 果 我 们 像 参 考 文献 [5] 那 样 仍然 舍 计 8 个 纯 
参数 ,那么 就 允许 对 于 一 个 图 像 帧 的 图 像 平 面 有 两 个 不 同 的 方位 。 通 常 , 这 个 算法 只 用 于 后 向 
运动 估计 ;也 就 是 说 ,对 帧 ke 1 中 的 任何 一 个 小 的 区 域 ,我 们 假设 它 对 应 于 三 维 的 一 小 块 
面 , 但 是 具有 有 未 知 的 平面 方位 ,并 估计 它 从 帧 +1 到 帧 上 的 运动 以 及 平 而 的 方位 。 这 不 允许 
我 们 在 多 个 帧 上 连续 地 跟踪 同一 个 三 维 小 块 。 


7.1.4 使 用 外 极 线 的 未 知 形状 的 物体 


APRE -种 运动 估计 算法 , 它 允 许 我 们 无 需 任何 物体 形状 的 知识 即 可 估计 三 维 运动 和 
形状 [8] : BR -BE ERATE RG URE 没 定 为 单位 长 度 。 我 们 假设 一 -个 刚 件 物 体 和 透 
视 投影 。 从 公式 (7.1.5) 开 始 , 把 和 替换 为 它 在 图 像 平 面 上 的 投影 x, UP = 1, 我 们 得 到 : 

nxt nytt DIZ 

| net ny trot TIL 
| yxtnytrt DIZ (7.1.10) 

FA EV + Te 十 TIZ 


注意 这 个 公式 与 公式 (5.5.13) 当 F= EAI, WEE TH ZRA -个 常量 ,公式 不 会 
改变 。 因 此 我 们 将 只 能 确定 工 的 方向 ,但 不 能 确定 它 的 绝对 长 度 。 它 的 长 度 决定 于 物体 的 大 
小 以 及 物体 到 摄像 机 的 距离 。 
在 7.1.2 节 中 ,假设 物体 的 形状 已 知 ,我 们 用 选 代 法 和 线性 化 求解 了 这 个 非 线性 方程 。 使 
用 一 个 中 疝 和 矩阵 可 以 无 需 知道 形状 而 估计 运动 f8, 19]。 这 个 中 间 持 阵 称 为 E ERREA 
矩阵 ,上 其 有 9 个 本 质 参数 。 在 公式 (7.1.10) 中 消去 Z, 我 们 可 以 确定 x 与 x 之 间 的 关系 为 ， 























































































































[xy ,1]:[El:[x,y,1] =0 (7.1.11) 
其 中 
€e e Ez 
Be es -| -mm (7.1.12) 
er es es 
(TER: 
0 Tt -P 
md T. 0 | (7.1.13) 
T, -T 0 
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旋转 矩阵 [R] 是 根据 公式 (5.3.6) 定 义 的 。 用 Z Z RART.. 1), RIGE: 
[X,Y,Z] [E] [X,Y,Z] =0 (7.1.14) 
公式 (7.1.14) 只 用 于 T0 Bie ahh EAE, RA EEFE, WA RITAR 
能 估计 它 的 运动 。 因 此 我 们 假设 感 兴趣 的 物体 也 是 做 平移 运动 的 。 
外 极 线 “公式 (7.1.11) 定 义 了 一 个 相应 的 图 像 点 x 与 x' 之 间 的 线性 依赖 关系 。 从 而 点 x 
运动 以 后 的 位 置 x 位 于 … 条 直线 上 。 这 条 直线 称 为 外 极 线 , 并 量 它 由 运动 参数 按 下 式 定义 : 


a(x, [E])x + b(x,[E])y + c(x,[E])=0 (7.1.15) 




















其 中 


a(x, [E]) = ea + ery +e, 
(x, [E]) = esx + esy + es 
(x,[E]) = e,% + egy + ey (7.1.16) 


图 7.1 示 出 了 一 个 具有 转动 [R] 和 平移 了 的 点 x 的 外 极 线 。 


























图 7.1 用 物体 运动 定义 的 点 x 的 外 极 线 
运动 估计 用 两 步 执行 。 首先 估 计 下 矩阵 ,然后 把 它 分 解 成 许 转 抢 阵 和 平移 矢量 。 


























ESR 显然 当 Tz0 时 5 矩阵 不 会 为 零 。 用 公式 (7.1.11) ,我 们 为 每 一 个 点 对 应 定 
义 一 个 方程 。 由 于 公式 (7.1.11) 是 一 个 齐 次 方程 ,我 们 可 以 把 矩阵 的 任意 一 个 参数 设置 为 1， 
例如 ; 








e=] (7.1.17) 


由 于 这 个 约束 ,为 了 估计 玉 矩 阵 最少 只 需要 8 个 方程 。 为 x 与 x) 之 间 每 个 测量 点 的 对 应 ， 
我 们 可 以 根据 公式 (7.1.11) 建 立 下 面 的 方程 ; 


Be = (7.1.18) 
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其 中 = [x 人 wy] Me =i ener ey,erresreorer erl] Ai 
有 的 点 对 应 将 导致 下 面 的 方程 组 : 
[Ale’=r (7.1.19) 








其 中 
[A] = [a ,mm ar] (7.1.20) 

然后 我 们 可 以 用 最 小 平方 法 使 上 r | 最 小 来 解 公式 (7.1.19) 中 的 超 定 方程 组 。 

可 以 证 明 ,在 解 眉 矩阵 时 ,把 王 矩阵 的 - :个 元 素 如 公式 (7.1.17) 那 样 设置 为 常量 ,可 能 不 

会 产 牛 可 达 刘 的 最 小 残 差 。 一 种 替代 的 方法 是 要 求 失 量 e= [el ez, ens esses 185107 20g, ey]? 

具有 单位 范 数 , 即 ; 





fell =1 (7.1.21) 
然后 ,我 们 可 以 利用 一 个 约束 的 最 小 化 问题 解 记 卸 阵 : 
lAlel 一 > min . llell=1 (7.1.22) 


这 将 产生 最 小 线 差 和 较 好 的 卫 和 矩阵 的 解 。 这 个 解 是 [A]7TA] 关 于 最 小 特征 全 的 单位 特征 矢 
量 。 为 了 避免 数值 不 稳 定性 ,[A] 的 特征 值 和 特征 矢量 可 以 用 SVD 按 下 式 计算 : 


IAj=[U][Z]iV]7 (7.1.23) 


甜 阵 [ 忆 ] 只 包含 [A]"[A] 的 非 负 特征 全 的 趟 平方 根 [14]。 
一 个 测量 的 点 对 应 (x,x") 的 误差 影响 依赖 于 实际 的 图 像 坐 标 x( 见 习题 7.6)。 靠 近 图 像 

中 心 的 对 应 误差 并 不 如 图 像 边界 处 的 误差 对 解 的 影响 大 。 
旋转 和 平移 的 估计 “由 于 玉 矩 阵 定义 为 描述 刚性 物体 的 三 维 运动 , 考 虑 到 我 们 只 能 恢复 
平移 矢 基 的 方位 ERT S 个 自由 的 角度 。 然 而 在 了 矩阵 的 估计 中 ,我们 允许 8 PAE, A 
[从 下 年 阵 提取 旋转 和 平移 ,需要 解 一 个 明 优 化 问题 。 
按照 参考 文献 [21] ,首先 估计 平移 冬 量 。 对 于 如 公式 (7.1.13) 定 义 的 [T], 我 们 有 ; 


T)’=-(T] 和 [TJT=0 (7.1.24) 


























用 T 乘 公式 (7.1.12) ,我 们 得 到 ; 
(E]’:T=[R]'{T]?-T= -(R]'[T]-T=0 (7.1.25) 


HE, [EIKE TIR ERREAK (de(l E]) = 0) ,下 正 交 于 由 [也 ] 的 列 矢 量 定 义 的 平面 。 
如 果 孔 短 阵 旦 根据 公式 (7.1.22) 对 有 曲 的 点 对 应 估计 的 ,我 们 就 不 能 假设 公式 (7.1.25) 精 确 
地 成 立 。 央 此 我 们 更 愿意 使 用 SVD 根据: 


IIE; TTI —> min > ITP =1 (7.1.26) 











来 估计 平移 矢量 。 类 似 于 公式 (7.1.22) 中 e 的 解 ,是 [E][E] 的 最 小 特征 值 的 单位 特征 和 
R. THA A(T. 1.25), 很 明显 了 的 符号 是 不 能 确定 的 。 类 似 地 , [EE] 的 解 不 是 惟一 -的 。 给 定 全 
计 的 下 矩阵 | 起 ] ,我 们 知道 - [ 写 ] 也 是 一 个 有 效 的 解 。 在 参考 文献 [22] 中 证 明了 可 以 通过 选择 
T 使 下 面 的 条 件 对 所 有 的 x 成 立 来 确定 工 的 正确 符号 : 
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Sle’. 11]? [E] (x,y,1]” >0 (7.1.27) 


这 个 公式 确保 六 和 XX' 在 运动 前 后 都 位 于 摄像 机 的 前 而 。 
第 一 步 , 我 们 估计 旋转 和 矩阵 [R] 。 公 式 (7.1.12) 也 可 以 写成 : 














[E]j7=[R]7[T]7= -[R]TI] (7.1.28) 
此 [有 R] 可 以 通过 下 面 的 最 优化 问题 求 出 : 
{RJTI-TI - E74 ma IR]? ={R]' 和 det([RD)=1 (7.1.29) 
JF AE tol ERE PE RE PAR ABET. SK (7.1.29) EF 一 般 问 题 的 特例 : 





HOFIEC) ~ {DY F min (7.1.30) 

















其 中 [到 ] 必 须 满足 旋转 矩阵 的 蚀 质 ,[C] 和 [D] 是 任意 的 3 x3 ERE. A 4 x 4 SPEC] BT Ait 
算 求 解 [21]; 








3 
[B] = 六 [B,]7[B,] (7.1.31) 
a 
其 中 
0 n= dy tn = dy cd ] 
du = cn 0 — (c+ dy) cu + dy, 
B,] = 7.1.32 
[B] dn- ca cn + do; 0 -ler + dy) ‘ ) 
dyes, -Cex+dy) ey tah, o J 


这 里 6 , 4; 是 [LC] 和 [DD] 的 元 素 。 首 先 ,我 们 用 SVD 确定 {B] 的 最 小 特征 值 的 单位 特征 矢量 
=[ gi,82,83，84] 。 然 后 和 矩阵 [F] 可 以 由 下 式 得 到 ; 


Bites eit es Ugg) greet eres) ] 
[F]=| (egm +g) el-gite-e Ugga- gg:) (7.1.33) 
2eres- 88s) (BB+ g) wi-gi-g+ git 
BWC] = - [T] ,iD] = [EJ]”, 则 旋转 第 阵 通过 [R] = [F]” 与 前 面 的 解 联系 起 来 。 
估计 的 精度 ”在 本 节 中 ,我 们 研究 估计 的 参数 表示 特征 点 对 应 的 优 劣 程度 。 所 得 到 的 运 
动 参数 精度 的 一 个 合适 的 度量 ,是 使 用 估计 的 旋转 和 平移 参数 根据 公式 (7.1.15) 计 算 每 一 个 
特征 点 x 的 外 极 线 。 然 后 我 们 度量 x' 与 它 的 外 极 线 之 间 的 距离 d: 


2 (x TEx 
4 GG TE)? + bx EL? (7.1.34) 




















FHEA 指示 EPP SAE MEE. AP TARR RI 4 。 我 们 可 以 用 根 
HART. 1.22) A) ERE, RAPT Ag SPEC) = [T][R], 它 是 由 公式 (7.1.26) 和 
7.1.29 HE EPS FOE BRO 4S BUA, ZS R71. 26) (7.1.29) EY BE 
阵 计算 得 到 的 。 要 注意 ,用 第 二 种 方法 计算 的 了 比 用 第 一 种 方法 得 到 的 4 通常 要 高 一 个 数量 
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级 。 这 表明 采用 上 第 阵 的 运动 估计 对 二 对 应 中 的 噪声 非常 敏感 。 先 进 的 算法 用 公式 (7.1.22) 
作为 估计 王 矩 阵 的 选 代 算 法 的 起 始点 ,服从 的 约束 是 ,[ 吾 ] 是 由 [R] 和 [T] 通 过 公式 (7.1.12) 和 
(7.1.13) 定 义 的 。 

物体 形状 的 估计 知道 了 对 应 点 x 和 x 以 及 运动 [R] 各 工 , 我 们 可 以 根据 公式 (7.1.10) 用 
两 种 方法 计算 一 个 点 的 Z: 
T,- yT, 


ZS Cnty trey Cm + yrs ry) 


(7.1.35) 





T,- x'T, 
Z= Car, + yra + ro) x” — Gr, + yra + r} 
如 果 x 个 在 外 航线 上 , 这 两 个 方程 就 会 得 到 两 个 不 同 的 Z 的 估计 。 图 7.2 RA TAR 
《7.1.35) 和 和 (7.1.36) 是 如 何 把 点 x 投影 到 外 极 线 上 的 。 确 定 Z 的 一 个 较 好 的 方法 是 在 x 到 外 
极 线 的 正 交 投影 -选择 Zo BAT Z ,用 道 透视 投影 ,由 x 可 以 确定 下 和 了 





(7.1.36) 


> 





图 7.2 点 x 到 外 极 线 上 z 处 的 投影 确定 了 -= 维 空间 中 对 应 的 物体 
点 的 位 置 -.Z, 和 Z 是 用 公式 (7.1.35) 和 (7.1.36) 计 算 的 


7.2 直接 运动 估计 


在 上 - 节 中 ,我 们 假设 了 对 于 两 幅 疼 像 中 可 见 特征 的 少量 精确 的 特征 点 对 应 。 由 于 这 样 
的 精确 特征 点 对 应 不 总 是 可 以 得 到 的 ,现存 介绍 的 运动 佑 计算 法 是 直接 使 用 图 像 信 号 和 它 的 
楷 度 。 山 半 图 像 信 号 倾向 于 有 了 噪 的 ,我 们 希望 用 相当 大 明 的 图 像 点 来 合计 二 维 运动 ,并 称 这 些 
点 为 观测 点 。 我 们 不 知道 观测 点 在 前 -个 和 后 .个 图 像 中 的 位 置 。 如 果 我 们 做 出 的 关于 物体 
的 形状 ,亮度 和 摄像 机 模型 的 假设 成 立 , 这 些 算法 就 可 以 度量 大 的 运动 。 这 些 假 设 的 一 个 明显 
的 结果 是 一 个 物体 在 相继 两 幅 图 像 中 的 投影 是 重 符 的 。 因此 直接 运动 估计 算法 的 估计 范围 小 
比 间接 运动 估计 算法 小 。 

我 们 将 从 导出 图 像 和 运动 的 基本 关系 开始 (7.2.1 节 )。 然后 ,给 出 一 个 类 似 于 7.1.2 节 的 
算法 , 它 允 许 我 们 估计 没有 特征 点 的 已 知 形状 的 三 维 物体 的 三 维 运动 (7.2.2 节 )。 进一步 ,我 
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们 将 应 用 这 些 知识 推广 7.1.3 节 的 算法 ,使 之 在 没有 特征 点 的 情况 下 工作 。 在 3.2.4 节 ,我 们 
给 出 儿 种 就 估计 精度 而 言 可 以 提高 这 些 估计 算法 的 健 半 性 的 方法 。 


7.2.1 图 像 信号 模型 和 运动 


为 了 导出 直接 运动 估计 算法 ,假设 两 幅 相 继 的 亮 废 图像 《x) SO Se E 
于 物体 的 运动 造成 的 。 这 暗示 物体 有 漫 反 射 的 表面 ,并 且 场 景 是 由 环 麻 光 源 照明 的 ( 抑 5.2 
节 )。 在 参考 文献 [16] 和 [4] 中 ,也 考虑 了 照明 的 影响 。 我们 现在 建立 两 个 视频 幅 ; (Xx) 与 
六 ia(x) 之 间 的 帧 差 与 运动 的 美 系 。 

首先 ,我 们 需要 图 像 信 忠 的 一 个 分 析 的 表示 。 应 用 六 (x+ Ax) 在 x 的 一 阶 泰勒 展开 ,可 以 
得 到 : 


























¥ (xt dna (x) 4 Fea + ay (1.2.1) 

SBIR CT ORE (AP BURL ECE RO ALM Hh, EAM Ax 很 小 时 ,这 种 近似 才 是 正确 

的 。 在 附录 A, 我 们 描述 了 儿 种 在 图 像 位 置 x 计算 图 像 稳 度 g(x) = [ay (x)/3x,3(x)y ay]? 

的 方法 。 

让 我 们 考虑 物体 表面 的 一 个 观察 点 , 它 在 时 刻 EFX, ENA +1 位 于 X。X 投 影 到 

图 像 ,中 的 x, 运动 以 后 ,同一 个 点 x 投影 到 图 像 ji 中 的 x, 赂 像 天 与 图 像 5+ 1 在 点 x 的 
亮度 差 是 : 





























AWG) =H iG -P(x) 
SVa) Wale’) (7.2.2) 


公式 (7.2.2) 是 成 立 的 ,因为 根据 恒定 亮度 假设 Y ,41《x') = 区， (5)( 公 式 (5.2.110)) ,我 们 假设 所 
有 的 变化 都 是 由 物体 的 运动 引起 的 。 利 用 公式 (7.2.1) 的 线性 信号 模型 和 Ax = x! -x, 可 以 把 
公式 (7.2.2) 重 新 写 为 : 








AV Cx) = -g(x -2X) (7.2.3) 


Seen "Bea RAN, RE, (1) = gi (x) 成 立 。 因 此 ,公式 (7.2.3) 也 可 
以 表示 成 : 














AW, (x) = 一 可 (ECX — x) (7.2.4) 


注意 这 个 公式 等 价 于 公式 (6.2.3) 给 出 的 光 流 方程 的 离散 形式 。 

公式 (7.2.4) 给 出 了 图 像 中 的 观察 点 x 与 它 在 图 像 于 + 工 中 的 移 位 位 置 x' 之 间 的 关系 。 
图 7.3 中 示 出 了 这 种 在 图 像 梯度 , 帧 差 和 二 维 运动 之 间 的 关系 。 对 于 图 7.3(a) ,公式 (7.2.4) 
是 精确 成 立 的 ,因为 图 像 信号 Y a 和 ;是 线性 的 。 在 这 个 例子 中 ,亮度 差 A 由 (x) EAD, 
像 梯度 g x) 是 正 的 ,产生 了 一 个 正 的 位 移 (x’ — x) >0。 图 7.3(b) 的 情况 类 似 ;然而 图 像 信 
号 不 髓 是 线性 的 了 。 在 这 个 例子 中 ,度量 的 帧 差 AY kx(x) 小 于 线性 信和 号 模型 所 给 出 的 帧 差 。 
因此 ,我 们 将 估计 出 -- 个 具有 正确 的 符 导 但 是 幅度 过 小 的 位 移 。 由 于 这 个 效应 ,我 们 将 木 得 不 
迁 代 地 估计 运动 。 
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图 7.3 说 明 公式 (7.2.4) 大 如 何 把 图 像 信号 与 一 个 观测 点 的 一 维 过 动 联系 起 来 的 两 个 例 
子 :(a 央 为 线性 信号 慌 型 成 立 ,所 以 没有 近似 误差 :(b) 由 于 线性 信号 模型 不 能 很 
好 地 近似 图 像 信号 ,我 们 度 晨 的 亮度 差 小 于 所 要 求 的 ,结果 是 估计 的 位 移 太 小 


观察 网 7.3(b) ,可 以 想像 如 果 图 像 信号 包含 有 很 高 的 频率 ,我 们 将 会 测量 出 - -个 具有 不 
可 更 测 的 符号 的 亮度 差 。 在 这 种 情况 下 ,位 移 (x' - x) 可 能 大 于 x 附近 图 像 信 号 的 周期 。 这 会 
造成 估计 的 位 移 具有 不 正确 的 符号 。 因 此 ,我 们 建议 第 一 次 连接 迄 代 时 ,使 用 图 像 低 通 滤波 后 
的 版 本 。 

下 曾 隔 节 描 述 的 运动 估计 算法 是 基于 图 像 信 怠 模型 的 ,以 便 导 出 帆 差 与 -: 维 运动 的 关系 。 
这 些 算法 用 摄像 机 模型 .运动 方程 和 物体 的 形状 把 点 x 的 运动 与 -= 维 空间 的 运动 联系 起 来 。 
由 于 公式 (7.2.4) 是 基于 图 像 信 呈 的 线性 近似 的 ,所 以 合计 算法 将 用 于 一 个 送 代 估计 过 程 之 
内 ,直到 正确 的 运动 被 估计 出 来 。 为 了 加 速算 法 的 收敛 ,期 望 图 像 信 导 的 一 个 沿 阶 的 近似 。 根 
据 参考 文献 [3] ,我 们 可 以 用 四 边 形 图 像 信号 模型 近似 图 像 信息 ,使 用 不 明确 计算 二 阶 导 数 的 
二 阶 泰勒 级 数 展开 。 使 用 这 个 模型 , 帧 差 近似 为 : 


Av .(x) = - B(x) +(x! ~ x) (7.2.5) 


















































其 中 
B(x) = (8.00) + 81.100) 7.2.6) 


平均 梯度 g(x) 考虑 到 了 y :0 的 一 阶 和 一 阶梯 度 。 由 于 这 个 四 边 形 图 像 信号 模型 能 较 好 地 
近似 图 像 信号 ,产生 较 好 的 运动 估计 ,并 日 易于 计算 ,所 以 只 要 合适 ,我 们 建议 使 用 这 个 模型。 
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7.2.2 已 知 形状 的 物体 

这 里 推广 7.1.2 节 的 算法 ,使 它 在 没有 特征 点 时 适用 。 在 运动 估计 中 ,我 们 使 用 大 量 的 观 
测 点 表示 物体 。 由 于 假设 我 们 知道 物体 的 形状 ,那么 这 些 点 的 三 维 位 置 是 可 知 的 。 用 世界 坐 
标 必 替换 公式 (7.2.5) 中 的 图 像 坐标 x, 根 据 公 式 (5.1.2) 使 用 针 孔 摄像 机 模型 ,我 们 得 刘 : 





























Y Y) 


wegl -Zarali (1.2.7) 





Hg, 和 5 ， 是 g(x) 的 x My 分 量 。 假 设 物体 绕 着 它 的 中 心 C= [Ce,Cy ,Cu]7 旋转 ,并 且 有 
小 的 旋转 角度 ,由 公式 (5,3.10) 和 (5.3,11) 得 到 : 
X'=[R'](X-C)+C+T (7.2.8) 
也 公式 (7.2.8) 代 入 公式 (7.2.7) 中 的 X' 得 到 : 
Avala) = Fg, IZT, + Fg, IZT, 

-( We. + Yg, FIZ + AW i (x)/Z)°T, 

-[[X¢.(¥-6,)+ ¥e,(V¥-6)4+28 (2-6) FZ 

+AU (XZY -C,)] -0+ Yg, (X -C)+ Xg (X-C) 

+ Ze (2Z-C,) FIZ + AY OHZ- C.) 10, 

~Le.V-6,)- 8 (X-C,)) F/Z-8, (7.2.9) 


RT TT, T, 8.0, 和 8 LOPRMNEHSRX=(X,Y,Z)" 是 物体 表面 的 点 ,根据 公式 
(7.2.6),g = (a, +g, ]" 是 图 像 的 梯度 ,下 是 氢 像 机 的 焦距 ,x 是 运动 前 帧 上 中 的 观测 点 的 位 置 。 

为 得 到 6 个 运动 参数 的 可 靠 估计 ,必须 为 运动 物体 表面 上 的 许多 观测 点 x ,j= 1,2,…, 了 
建立 公式 (7.2.9) ,产生 一 个 超 定 的 线性 方程 组 : 

[A]-¢-b=r (7.2.10) 

HH RÆ rs [renn] s TT T000] ,b= LAKH) AV (Ky), 
[A]=[al,… ,ay] Ti a 是 根据 公式 (7.2.9) 对 第 了 个 观测 点 定义 的 。 这 个 线性 方程 组 可 以 
通过 下 面 的 最 优化 问题 求解 ; 
































| AIS -b12 = Iri? É min 0.211) 


它 具有 最 小 化 在 物体 的 观测 点 a x) 上 测量 到 的 运动 补偿 帧 差 的 作用 。 运 动 参数 由 下 式 
给 出 ; 














$= ([A]7[A]) [A] b (7.2.12) 


ATER AMR RAPT A] ,而 是 直接 计算 6 x 6 SEAT LALAURELAT b, 

由 于 公式 (7.2.8) 和 (7.2,3) 的 线性 化 ,运动 参数 必须 选 代 地 估计 。 每 一 次 迭代 以 后 ,模型 
物体 及 其 观测 点 都 要 按照 非 线性 三 维 运动 方程 (公式 (5.3.11)) 使 用 估计 的 运动 参数 多 进行 移 
动 。 然 后 ,建立 一 套 新 的 运动 方程 ,给 出 新 的 运动 参数 更 新 。 假 设 运动 估计 算法 收 敏 ,在 先 代 
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的 过 程 中 ,运动 参数 的 更 新 会 下 降 。 由 于 在 迁 代 的 过 程 中 ,运动 参数 的 更新 趋向 于 零 , 出 旋转 
移 阵 线性 化 造成 的 误差 也 趋向 于 零 。 当 残 差 | AT 8 -b l? 的 下 降 变 成 可 以 铸 略 时 , 则 迁 代 过 
MAb. 

这 个 算法 估计 从 帧 玉 到 帧 上 +1 物体 的 运动 。 由 于 这 是 前 向 运动 估计 ,我 们 可 以 随 着 视频 
Jy Soi a At Tia REE 
7.2.3 平面 物体 

平面 物体 经 常用 做 真实 物体 的 近似 (5.5.3 节 )。 册 于 这 些 近似 道 常 不 足 用 于 跟踪 而 是 用 
于 视频 编码 中 的 运动 补偿 ,我 们 现在 把 7.1.3 TARRAA A 个 估计 后 向 运动 的 直接 
估计 方法 [5]。 从 公式 (7.1.9) 开 始 ,用 下 式 定 义 图 像 龙 + 1 中 的 点 x AER k HIS hI 
Alx, y): 



































x s[x,y]" 


= (4,004, (x) ]" 


了 
AX + ay + dy GX + asy + ay 
a,x + ay +1? ax t+ ay tl 

















= A(x) (7.2.13) 
并 请 次 很 设 图 像 序列 的 所 有 变化 都 是 出 于 物体 的 运动 引起 的 ,我 们 行 到 ， 
Wie) = VR) = # (A(x) (7.2.14) 


类 做 上 公式 (7.2.2) , 帧 益 变 成 ; 
AYO) =¥ nO) - 41.00 





YCA) = F(x) (7.2.19) 
利用 泰勒 级 数 展开 ,我 们 表示 在 观测 点 x 关于 运动 参数 a KRR: 
HAG = cGy) + D HD ag, 
a i (7.2.16) 


sa 
+4 OO) TO) ag Ag, + R(X) 
a 


Ja 9a, 





Fil a= (a), a)", Aa=a- e,e=(1,0,0,0,1,0,0,0)7 209 _ Mae) PACH) , OW a(x) 
1 s ge :d= VEOH VIVAL UU, Ga, Ox Ba + y 

3A, (x) 

da, 


AUR, (x) RD BY RAE LW AD. HE MAE TR 7.2. 15) PH 





ay = a, + Iss 24 Ge) TO ag Aa, + R(x) (7.2.17) 
Eg tal jal n a, 
如 果 巾 边 形 图 像 信 号 模 弄 是 成 立 的 , 则 残 差 R (x) 为 零 ,简化 公式 (7.2.17) 为 : 
AW ix) = gxAa + gyda +g, Aas + gråa + grAas 
+ By Ads ~ «(gx + By )Baz - yles + By) Mag (7.2.18) 
=hrAa 
其 中 ,根据 公式 (7.2.6),g(x) = Te ,8,]7。 
对 于 一 个 物体 的 观测 点 ,公式 (7.2.18) 定 义 了 -个 有 8 个 未 知 运动 参数 的 方程 。 为 了 伟 
计 运 动 ,我 们 为 J 个 观测 点 x 建立 方程 (7.2.18) , 解 下 面 的 J 阶 线性 方程 组 : 
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[HlAa = Av (7.2.19) 

FRM HIRATA h” ERPAT .2. 18ER , RRASA .2.18), AY 是 包含 两 幅 图 像 
之 间 帧 差 的 矢量 。 用 最 小 平方 法 解 这 个 线 性 方程 组 ,类似 于 公式 (7.2.12) ,我 们 得 到 : 

Aa =〈[H] DOH]) ‘(HAY (7.2.20) 

HIP Te RRA Pe A J Ma GE MSC, US, RE 

的 返 动 参数 用 到 运动 补偿 帧 上 +1, 使 

DX) = (a(x) (7.2.21) 





























置换 的 帧 差 变 成 : 

DFDGx) = Wi(A'(x)) ~ 0 a(x) (7.2.22) 
其 中 逆 映 射 A'(x) 定 义 为 A'(A(x)) = x 在 迭代 期 间 ,公式 (7.2.22) 代 替 公 式 (7.2.15)。 而 
日 ,公式 (7.2.48) 中 的 图 像 梯度 必须 用 运动 补偿 的 图 像 和 图 像 上 来 计算 。 如 果 我 们 对 全 局 运 
动 参数 感 兴趣 ,那么 每 次 迭代 中 估计 参数 就 必须 适当 地 连结 起 来 (见习 题 7.9)。 


7.2.4 健壮 估计 


为 了 使 运动 佑 计 不 容易 受 图 像 噪声 影响 或 避免 我 们 的 模型 假设 的 拢 乱 ,必须 注意 选择 和 
使 用 观测 点 。 有 两 种 类 杷 的 误差 会 影响 运动 估计 :由 采样 图 像 信 号 时 出 现 的 图 像 噪声 引起 的 
i 的 模型 假设 不 成 立时 出 现 的 模型 误差 。 在 本 节 中 ,我 们 首先 讨论 测量 误 
X ,然后 讨论 模型 误差 以 及 如 体 使 它们 对 估计 的 运动 参数 的 影响 最 小 化 。 
测量 误差 ”前面 是 节 的 算法 都 是 基于 四 边 形 图 像 信号 模型 的 。 由 于 这 最 多 只 在 疯 测 点 位 
四 周转 的 -个 小 区 域 成 立 ,在 天 发 一 个 健壮 的 直接 运动 估计 器 时 ,适当 选择 观测 点 是 一 个 很 重 
要 的 因素 。 这 里 我 们 给 出 对 任何 直接 运动 估计 算法 都 适用 的 几 个 概念 。 

BEARRA ,我 们 可 以 导出 一 个 选择 观测 点 的 基本 准则 。 假 设 摄像 机 噪声 在 两 个 相 
继 的 帧 是 i.i.d, 并 且 噪 声 方差 为 2 , 则 图 像 差 信号 的 噪声 将 是 ; 

Sap, = 2-03 (7.2.23) 
B FERMA ies hy, NITE EER AT A RT SE LR AL J Se A th, 
就 是 浇 , 我 们 更 青 欢 帧 差 超 过 某 个 最 小 值 的 那些 观测 点 。 

根据 公式 (7.2.4) ,我 们 把 局 部 位 移 x' ~ x 表示 为 一 个 无 噪声 亮度 信和 续 的 函数 。 在 有 噪声 
的 环境 中 ,梯度 gx) 应 沪 具 有 大 的 绝对 值 ,以便 限制 摄像 机 噪声 的 影响 。 因 此 我 们 只 选择 楼 
BAT BHAT. 的 点 作为 观测 点 : 















































lax) i> Te 
Lg) 1> Te (7.2.24 ) 
相对 天 的 梯度 也 考虑 到 了 运动 参数 的 精确 估计 ,因为 一 个 微小 的 误 匹 配 立即 会 产生 高 的 DED 
BRA AW (x)。 如 果 我 们 选择 的 观测 点 具有 零 梯度 或 很 小 的 梯度 ,这 个 点 可 能 会 移动 几 个 像素 
而 不 会 引起 显著 的 DFD。 图 7.4 示 出 了 -个 测 坛 序列 “克莱尔 "的 图 像 和 它 的 观测 点 。 我 们 选 
择 所 有 满足 1g, (x) | > 32 RI g, GO > 32 的 点 x 作为 观测 点 。 用 这 种 观测 点 的 初始 选择 ,我 们 
现在 研究 改进 运动 估计 算法 性 能 的 方法 。 
模型 误差 ”公式 (7.2,10) 和 (7.2.19) 是 通过 使 残 差 误差 的 方差 为 最 小 求解 的 。 然 而 这 种 
方法 对 模型 误差 敏感 [10]。 模 型 误差 的 出 现 是 因为 公式 (7.2.10) 和 (7.2.19) 是 基于 几 个 模型 
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假设 和 近 侯 的 ,而 这 些 假设 和 近似 倾向 于 对 大 多 数 而 不 是 对 所 有 观测 点 成 立 。 破 坏 这 些 假设 
的 观测 点 称 为 异 点 (outlier)[15]。 当 用 最 小 平方 法 解 公式 (7.2.10) 和 (7.2.19) 时 , 异 点 对 解 有 
很 大 的 影响 。 因 此 在 估计 的 过 程 中 ,我 们 必须 采取 措施 限制 这 些 异 点 的 影响 。 下 面 的 假设 有 
时 是 不 成 立 的 : 

1. 刚性 的 真实 物体 ， 

2. 四 边 形 图 像 信 号 模型 

3. 模型 物体 形状 与 真实 物体 形状 具有 小 的 偏差 ， 

4. 漫 射 照 明和 温 反 射 表面 。 



































a (b) 
图 7.4 《a) 测 试 序列 “克莱尔 "的 图 像 ;(b) 这 个 图 像 的 观测 点 


下 面 ,我 们 讨论 每 一 个 这 样 的 假设 对 运动 估计 精度 的 影响 。 

假设 1: 在 部 分 真实 物体 不 是 刚性 的 情况 下 ( 即 物 体 是 柔性 的 ) , 图像 的 一 些 区 域 就 不 能 
物体 的 运动 .形状 和 彩色 参数 来 描述 。 这 些 图 像 区 域 称 为 模型 失效 区 ,可 以 由 它们 潜在 的 高 帕 
BAY (x) 加 以 检测 。 具 有 高 帧 差 的 观测 点 可 以 归 类 为 异 点 。 在 迁 代 中 ,我 们 将 只 考虑 那些 
对 于 : 






























































AW (x) < ogy * Tor (7.2.25) 
其 中 
了 
ci = Fay a”) 《7.2.26) 

















成 立 的 观测 点 xo ME rs 用 来 从 考虑 的 问题 中 去 掉 异 点 。 方 差 ciy 应 该 在 每 次 选 代 后 重新 
计算 。 

假设 2: 根据 公式 (7.2.6) ,运动 估 计 是 基于 一 个 四 边 形 信号 模型 的 。 这 至 多 在 观测 点 x 
属 围 的 一 全 小 区 域内 成 立 。 它 只 允许 在 一 次 选 代 中 估计 小 的 位 移 (x' -x)[12]。 给 定 一 个 图 
像 的 梯度 g(x) 和 我 们 希望 多 许 估计 的 最 大 位 移 dw ,对 每 个 观测 点 可 以 限制 所 能 允许 的 帧 差 
AY (x) ,并 且 如 果 需 要 的 话 ,对 一 次 给 定 的 选 代 排除 一 个 观测 点 。 我 们 假设 这 个 点 是 不 符合 
图 像 信 吕 模 型 的 。 

假设 3: 模 型 物体 与 真实 物体 之 阐 的 形状 差 , 可 以 用 沿 着 观测 线 的 观测 点 的 空间 不 确定 性 
来 描述 。 可 以 考虑 在 估计 中 使 用 卡尔 曼 (Kalman) 滤 波 基 [9]。 

假设 4: 尽 管 非 漫 射 照明 和 反射 的 影响 扰乱 图 像 的 分 析 , 但 它们 通常 不 是 单独 建 模 的 。 在 
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EREL ,在 从 测 模型 失效 区 时 ,这 些 图 像 区 域 自动 被 检测 ( 秃 假 设 1)。 

综 上 所 述 ,我 们 得 到 结论 ,应 该 很 据 公 式 (7.2.24) 用 大 的 图 像 梯度 选择 观测 点 。 在 运动 佑 
计 中 ,只 有 遂 过 了 这 个 初始 测试 的 观测 点 才 将 被 考虑 。 对 于 一 次 给 定 的 迁 代 将 要 使 用 的 观测 
点 ,公式 (7.2.25) 提 供 了 - .种 选择 的 准则 。 在 参考 文献 [13] 中 ,讨论 了 关于 健壮 直接 运动 估计 
和 最 大 似 然 估计 的 进一步 细节 。 下 面 , 我 们 将 简要 地 集中 于 参考 文献 [13] 各 [7] 中 描述 的 高 效 
AGI BE 
除了 根据 公式 (7.2.25) 对 观测 点 使 用 二 进 制 选择 准则 以 外 ,我 们 也 可 以 使 用 连续 的 成 本 函 
数 来 控制 观测 点 对 参数 估计 的 影响 。 和 根据 公式 (7.2.10), 使 用 残 兰 r 作为 观测 点 影响 的 度 星 
[14,23]。 选 择 适 当 度 甚 的 关键 问题 是 处 理 异 点 。 理 想 情 况 下 ,我们 想 要 知道 异 点 的 概率 密度 函 
Be. 而且 我 们 还 想 要 异 点 对 估计 的 运动 参数 没有 影响 。 然 而 异 点 的 概率 密度 函数 通常 是 本 知 
的 ,因此 ,如 Tukey 建议 的 使 用 成 本 函数 w= C1 - (745)》 的 启发 式 的 解 被 求 出 为 [7,23]: 


， 人 如 果 151<5 

































































r= (7.2.27) 
0 其 他 
代替 使 > 1 5 P min ,我 们 现在 令 : 
Ie Ê 1w |? > min (7.2.28) 
Dag Play l 


当 17 | 降低 时 ,成 本 函数 w= (1- 7787)? 增加 到 1。 满 足 | "| mb RYU A Ft 
迭代 中 排除 。 常 量 是 检测 异 点 的 阔 值 。 为 了 使 噶 点 的 检测 自 适 应 于 图 像 关 信 号 Ay ,我 们 
选择 方正 比 于 公式 (7.2.26) 中 的 ony 。 在 运动 估计 中 ,我 们 把 每 一 个 观测 点 x) Hi SE DA 
它们 各 自 的 成 本 w= (1 一 (7 可) 站 ,因此 按照 公式 (7.2.11) 和 (7.2.20) 自 适应 了 它们 对 估计 
运动 参数 的 影响 。 


7.3 迁 代 运动 估计 


点 接 和 运动 估计 算法 只 能 估计 小 的 运动 ,这 主要 是 由 于 图 像 信 号 模型 假设 成 立时 所 限制 的 
范围 造成 的 。 为 了 估计 大 的 运动 ,必须 使 用 迭代 的 算法 。 

让 我 们 假设 从 - - 套 观 测 点 和 前 面 一 节 描 述 过 的 方 税 出 发 估计 运动 参数 。 在 第 一 次 选 代 
时 ,给 定 残 差 n ,我 们 求解 ;= ! 时 的 运动 参数 [R. IA T, 我 们 把 这 些 运 动 参数 用 到 物体 及 其 
观测 点 的 运动 补偿 。 如 果 适 当 , 我 们 非 线性 运动 方程 进行 运动 补偿 , 即使 运动 参数 是 用 线性 
化 的 旋转 盾 阵 解 出 的 。 现 在 我 们 按照 与 第 一 次 迭代 同样 的 程序 建立 一 一 套 新 的 方程 ,产生 i =2 
的 运动 参数 [R,] 和 工 ,。 继 续 这 些 选 代 ,只 要 新 的 运动 参数 能 够 减 小 残 差 , 即 对 于 适当 选择 的 
BE PAG 7.) > 7。 最 终 估 计 的 从 图 像 k BER k+ 1 的 运动 参数 ,可 以 通过 把 每 一 次 
选 代 的 运动 参数 连结 起 来 进行 计算 。 
为 了 说 明 运 动 参数 连结 的 原理 ,我 们 对 于 7.2.2 节 给 出 的 算法 计算 连结 。 假 设 按照 公式 

(5.3.9) 运 动 , 估 计 的 旋转 年 阵 [ 良 ] 变 成 ; 
[Ê] = IT [Raan] (7.3.1) 


SO RERELR, HETES i 次 近代 中 估计 的 。 平 移 矢量 全 的 计算 必须 考虑 旋转 中 心 。 假 设 
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计算 在 第 ;次 送 代 中 围绕 C, 的 旋转 ,我 们 得 到 : 
È= T, +C + [RIT + C.-C + [Ra KT + Cra -C + 1)) (7.3.2) 
假设 旋转 是 绕 着 坐标 中 心 的 ,也 就 是 说 ,物体 按照 下 式 运动 : 
x = (RIX+T (7.3.3) 
Sia Bae aye, an Ai a AE ET RRA. SAT, APES Bh 
估计 具有 在 傣 计 中 考虑 图 像 信号 的 优点 。 














7.4 小 结 


本 章 讨论 了 儿 种 估计 三 维 运动 的 方法 。 我 们 给 出 了 两 种 估计 方法 ,间接 运动 估计 和 直接 
返 动 合计 。 

间接 运动 估计 算法 (7?.1 节 )} 依 赖 于 运动 物体 的 特征 点 。 这 些 特征 点 必须 在 防 幅 图 像 上 
可 靠 地 标示 。 然 后 我 们 可 以 由 这 些 对 应 来 佑 计 一 维和 运动 。 这 种 算法 允许 估计 大 的 运动 ;然而 ， 
这 种 估计 算法 对 特征 点 对 应 中 的 误差 敏感 。 取 决 于 我 们 是 希望 假设 正 交 (7.1.1 节 ) 投 影 还 是 
透视 (7.1.2 入 ,7.1.4 节 ) 投 影 ,和 我 们 是 告知 道 物体 的 形状 ,可 以 采用 不 同 的 算法 。 如 果 物 体 
在 摄像 机 辅 的 方向 上 没有 明显 的 运动 ,并 且 物 体 主 要 在 摄像 机 平面 内 旋转 , 娜 么 采用 正 亦 摄像 
机 模 副 是 可 取 的 。 否 则 ,就 应 该 采用 具有 透视 摄像 机 模型 的 算法 , 它 比 止 交 模型 尖 要 更 多 的 计 
算 。 由 特征 点 对 应 估计 本 质 矩 阵 (7.1.4 节 ) 使 得 我 们 能 确定 物体 的 运动 以 及 这 些 特征 点 的 一 
维 位 置 。 为 了 获得 抗 噪声 的 健壮 性 ,在 用 不 质 扼 阵 确定 运动 和 形状 参数 时 ,我 们 建议 使 用 外 极 
线 约束 并 日 使 特征 点 到 该 线 的 上 距离 最 小 化 (公式 (7.1.34))。 

@ 直接 运动 估计 算法 (7.2 节 } 用 泰勒 级 数 展开 式 近 似 图 像 信号 (7.2.1 节 》, 并 旦 从 帧 差 信 
号 导出 其 于 像素 的 运动 ( 光 流 )。 这 种 基于 像素 的 运动 直接 用 来 计算 三 维 运动 参数 .如果 从 一 
帧 到 另 一 帧 的 物体 运动 很 小 ,就 可 以 使 用 这 种 算法 。 通常 ,我 们 需要 对 二 维 物 体 的 形状 做 出 - 
些 假 没 。7.2.3 节 描 述 的 算法 假设 了 一 个 平面 物体 模型 ， 成 功 地 运用 直接 运动 估计 算法 的 关 
键 是 细心 选择 用 于 测量 帧 盖 信 号 的 观测 点 。 在 7.2.4 节 中 ,我 们 描述 了 一 些 方法 用 于 页 运动 
估计 中 选择 这 些 点 。 

e 迭代 运动 估计 {7.3 节 ) 由 于 直接 运动 估计 通常 只 允许 小 的 运动 估计 ,使 用 选 代 方法 可 
以 扩展 运动 估计 的 范围 。 

估计 方法 的 选择 在 很 大 程度 上 依赖 于 可 利用 的 测量 方法 。 如 果 我 们 只 知道 少量 高 精度 特 
入 点 的 位 置 , 则 应 选择 间接 运动 估计 的 方法 。 如 果 我 们 能 够 用 光 流 从 图 像 信 号 可 车 地 估计 运 
动 ,就 可 以 使 用 直接 运动 估计。 对 于 某 些 应 用 ,这 些 方法 的 结合 也 许 能 得 到 最 好 的 结果 。 





7.5 习题 


7.1 直接 与 间接 运动 估计 占 之 间 的 区 别 是 什么 ? 潜在 的 优点 和 和 缺点 是 什么 ? 

7.2 从 : 般 的 三 维 运动 方程 XX = [R]X+ 下 和 公式 (7.1.,8) 的 平面 方程 开始 , 推 革 公 式 
{7.1.9)。 

7.3 ”证明 公式 (7.1.10) 可 以 写成 公式 (7. .11)。 
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7.4 
7.5 


7.6 


7.7 
7.8 
7.9 


7.10 


证 明 公式 (7.1.22) 的 最 优化 问题 的 解 是 





和 A] [和] 关于 最 小 特征 值 的 单位 特征 矢量 。 


考 虐 一 个 图 像 点 x, 它 是 义 的 投影 。 这 个 点 分 别 移 动 到 x' 和 XX'。 对 于 运动 参数 
和 [Rj] 求 出 对 于 这 个 点 x 的 外 极 线 。 对 于 图 像 点 x 利 它 的 外 极 线 , 作 图 表示 点 买 与 
摄像 机 中 心 的 距离 (也 就 是 2 坐标 ) 是 如 何 决定 它 在 外 极 线 上 的 位 置 的 ,把 该 点 置 


























PH Z= % 和 2 =1 的 点。 





当 估计 忆 年 阵 的 时 候 , 点 对 应 中 的 测 景 误差 8 的 影响 依赖 于 这 些 对 应 的 绝对 坐标 。 
说 明 点 对 应 的 残 差 是 如 何 依赖 于 相应 点 的 坐标 的 。 在 公式 (7.1.11) 和 (7.1.19) 中 ， 
用 x +9 幸 换 x。 震 使 一 个 对 应 的 图 像 坐 标 不 影响 上 矩阵 的 估计 ,那么 在 公式 
(7.1.22) 中 的 每 一 个 方程 的 加 权 央 子 是 什么 ?提示 :最 小 化 每 一 个 点 到 外 极 线 的 
































ER.) 
在 & 附 近 用 -- 阶 和 一 阶 泰 勒 展开 ,给 出 带 度 信号 Y (x) 的 多 项 式 表示 。 
用 图 像 信号 的 二 阶 泰勒 级 数 展开 式 ,推导 公式 (7.2.56) 和 公式 (7.2.5)。 





为 了 实现 平面 物体 的 直接 运动 估计 算法 (7.2.3 节 ), 必 须知 道 A 的 道 映射 。 证 明 映 
射 人 满足 一 组 四 个 公理 ( 即 闭 包 、 存 在 一 个 道 , 存 在 -个 单位 元 素 、 结 合 律 ) ,计算 映 


AY A 的 道 以 及 了 次 选 代 以 后 运动 参数 估计 的 和 。 
讨论 提高 直接 运动 估计 算法 的 健壮 件 的 方法 。 


7.6 文献 目录 


3 








[ELU 


Aizawa, K., H. Harashima, and T, Saito. Model-based analysis-synthesis image 
coding (MBASIC) system for a person’s lace, Signal Processing: Image Commun. 
(Oct. 1989), 1(2):139-52. 

Beardsley, P., P. H. S. Torr, and A. Zisserman. 3-D model aquisition from ex- 
tended image sequences, In B. Buxton and Cipolla R., eds., Proceedings of the 
4th European Conference on Computer Vision, LNCS 4065, 683-95. Cambridge, 
England: Springer-Verlag. 1996. 

Bierling, M. Displacement estimation by hierarchical block matching. In SPIE: 
Visual Commun, Image Processing (Nov. 1988), SPIE-1001:942-51. 

Bozdagi, G., A. M. Tekalp, and L. Onural. An improvement to MBASIC algorithm 
for 3-D motion and depth estimation. JEEE Trans. Image Process. (June 1994), 
3:71 1-16. 

Hotter, M., and R. Thoma. Image segmentation based on object oriented mapping 
parameter estimation. Signal Processing (Oct. 1988), 15(3):315-34. 

Huang, T. $., and A. N. Netravali. Motion and structure from feature correspon- 
dences: A review, Proceedings of the IEEE (Feb. 1994), 82(2):252-68. 

Li, H., and R. Forchheimer. Two-view facial movement estimation. IEEE Trans. 
on Circuits and Systems for Video Technology (June 1994), 4(3):276-87. 
Longuet-Higgins, H. C. A computer algorithm for reconstructing a scene from 
two projections, Nature (Sept. 1981), 293(5828):133-35. 

Martinez, G, Shape cstimation of articulated 3-D objects for object-based analysis- 
synthesis coding (OBASC). Signal Pracessing: Image Communication (March 
1997), 9(3):175-99, 

Meer, P., D. Mintz, and D. Y. Kim. Robust regression methods in computer vision: 





168 








20} 


21 


22 





23 





视频 处 理 与 通信 





a review. International Journal of Computer Vision (April 1991), 6€1):59-70. 
Moons, T. A guided tour through multiview relations. In R. Koch and L. van 
Gool, eds., Proceedings SMILE Workshop, LNCS 1506, 304-46. Berlin: Springer- 
Verlag, 1998. 

Musmann, H. G., P. Pirsch, and H.-J. Grallert. Advances in picture coding. Pro- 
ceedings of the IEEE (April, 1985), 73(4):523-48. 

Ostermann, J. Object-based analysis-synthesis coding based on moving 3-D 
objects. In L. Guan, S. Y. Kung, and J. Larsen, eds., Multimedia Image and 
Video Processing, 289-329. New York: CRC Press, 2000. 

Press, W. H., S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery. Numerical 
Recipes in C: The Art of Scientific Computing. Cambridge University Press. 1992, 
Rousseeuw, P. J., and A. M. Leroy. Robust Regression and Outlier Detection. New 
York: John Wiley & Sons, 1987. 

Stauder, J. Estimation of point light source parameters for object-based ceding. 
Signal Processing: Image Communication (Nov. 1995), 46(7):355-79, 

Tsai, R. Y., and T. S. Huang. Uniqueness and estimation of three-dimensional 
motion parameters of rigid objects with curved surfaces. [EEE Trans. Pattern 
Anal. Machine Intell. (Jan. 1981), 6:13-16. 

Tsai, R. Y., and T. S. Huang. Estimating three-dimensional motion parameters of a 
rigid planar patch, /EEE Transactions on Acoustics, Speech and Signal Proce SSG 
(Dec. 1981), 29(6):1 147-52. 

Tsai, R. Y., and T. S. Huang. Uniqueness and estimation of three-dimensiona! 
motion parameters of rigid objecis with curved surfaces. (EEE Transactions on 
Pattern Analysis and Machine Intelligence (Jan. 1984), 6(1):13-27. 

Tsai, R. Y., T. S. Huang, and W.-L. Zhu. Estimating three-dimensional motion 
parameters of a rigid planar patch. H. Singular value decomposition. /EEE Trans- 
actions on Acoustics, Speech and Signal Processing (Aug. 1982), 30(4):525-34. 
Weng, J., T. S. Huang, and N. Ahuja. Motion and structure from two perspective 
views: algorithms, error analysis, and error estimation. JEEE Transactions on 
Pattern Analysis and Machine Intelligence (May 1989), 11(5):451~76. 

Zhuang, X. A simplification to linear 2-view motion algorithms. Computer Vision 
Graphics and image Processing (1989), 46(2):175-78. 

Zhuang, X., T. Wang, and P. Zhang. A highly robust estimator through partially 
likelihood function modeling and its application in computer vision. JEEE Trans- 
actions on Pattern Analysis and Machine Intelligience (Jan. 1992), 14(1):19-34, 








第 8 章 视频 编码 基础 


视频 编码 是 数字 视频 处 理 的 重要 应 用 ， 视频 编 伍 的 日 的 是 要 减少 视频 序列 的 码 率 , 以便 
能 够 在 给 定 的 通信 信道 上 实时 传输 视频 。 信 道 带 宽 因 应 用 和 传输 媒体 的 不 同 而 异 。 对 于 使 用 
常规 电话 线路 的 可 视 电 话 应 用 系统 , 可 利用 20 kbps 的 视频 编码 。 对 于 标准 清晰 度 卫 星 广 播 必 
视 信和 叶 , 可 利用 6 Mbps 的 码 率 。 除 了 通信 应 用 系统 外 ,储存 和 检索 也 需要 视频 编码 ,不 同 存储 
介质 有 不 同 的 容 景 和 存 取 速 率 ,因此 需要 不 同 的 压缩 是 。 虫 于 这 种 很 宽 的 码 率 范围 ,已 经 开发 
了 不 同类 型 的 算法 。 第 一 类 算法 允许 对 任意 视频 传导 进行 有 效 编码 而 不 需要 分 析 视频 内 容 ， 
第 一 类 算法 识别 视频 序列 中 的 区 域 和 物体 并 对 它们 进行 编码 。 我 们 称 前 者 为 基于 波形 的 视频 
编码 器 ,而 后 者 为 基于 内 容 的 视频 编码 器 。 

在 本 章 中 ,我 们 首先 在 8.1 节 中 综述 各 种 基于 波形 的 和 基于 内 容 的 视频 编码 ,然后 在 8.2 
节 中 回顾 概率 和 信息 论 的 基本 概念 ;8.3 节 介 绍 用 于 尤 损 编 码 最 优化 的 信息 理论 和 用 于 有 损 
编码 最 优化 的 率 失真 理论 ; 接 下 来 叙述 无 损 编码 (8.4 节 ) 和 最 基本 的 有 损 编 码 技术 ,包括 标量 
量化 和 矢量 量化 (8.5 节 和 8.6 节 )。 第 9 章 和 第 10 章 分 别 讨论 基于 波形 和 基于 内 容 的 视频 编 
码 技术 。 
























































8.1 编码 系统 概述 





视频 编码 算法 的 组 成 在 很 大 程度 上 是 由 视频 序列 建 模 所 采用 的 信 源 模型 确定 的 。 视 频 编 
码 器 寻求 用 它 的 信 源 模型 描述 视频 序列 的 内 容 。 信 源 模型 可 做 出 图 你 序 列 的 像素 之 间 在 时 间 
和 室 间 上 相关 性 的 假设 , 它 也 可 考虑 物体 的 形状 和 运动 或 照度 的 影响 。 在 图 8.1 中 ,我 们 给 出 
了 一 个 视频 编码 系统 的 基本 组 成 。 在 织 码 器 中 ,首先 用 信义 偿 型 的 参数 描述 数字 化 的 视频 序 
列 。 如 果 我 们 使 用 像素 统计 独立 的 信 源 模型 ,那么 这 种 信 源 模型 的 参数 就 是 每 个 像素 的 亮度 
和 色 度 的 幅度 。 另 一 方面 ,如 果 我 们 使 用 把 一 个 场景 描述 成 凡 个 物体 的 模型 ,那么 参数 就 是 各 
个 物体 的 撒 状 、 纹 理 和 运动 。 下 一 步 , 信 源 模型 参数 被 量化 成 有 限 的 符号 集 。 明 化 参数 取决 于 
比特 率 与 失真 间 所 期 望 的 折 中 。 最 后 ,用 无 损 编码 技术 把 基 化 参数 映射 成 二 进 制 码 字 ; 这 种 技 
RE -… 步 利用 量化 参数 的 统计 特性 。 产 生 的 比特 流 在 通信 信道 上 传输 。 解 码 器 反 向 进行 编码 
器 的 一 进 制 编码 和 量化 过 程 ,重新 得 到 售 源 模型 的 量化 参数 。 然 后 ,解码 器 的 图 像 合成 算法 用 
信 源 模型 的 量化 参数 计算 解码 的 视频 帧 。 







































































8.1.2 视频 编码 方案 分 类 


在 本 小 节 中 ,我 们 对 几 种 流行 的 视频 编码 算法 提供 一 个 综述 ,并 把 它们 放 入 相应 的 信 渡 模 
埋 中 。 一 个 编码 算法 的 信 源 模型 要 根据 其 编码 参数 集 和 图 像 合成 算法 确定 ,图像 合成 算法 是 
根据 解码 参数 构成 解码 图 像 。 












































170 视频 处 理 与 通信 


























! 编码 器 
H 有 损 的 
| ` 
— a5 LS! 量化 c 
| f 
信 源 模型 EKER 


























=e 


aa | r 

i J- ee L Btk 
| _ 
i 





图 8.1 视频 编码 系统 综述 


基于 波形 的 编码 ”第 - .类 中 的 技术 都 试图 尽 可 能 准确 地 表 小 各 个 像素 的 颜色 值 ,而 不 考 
虑 一 组 像素 可 以 表示 - -个 物理 物体 这 一 事实 。 

把 像素 假设 为 统计 上 独立 的 ,这 样 得 到 的 模 弄 是 最 简单 的 信 源 模型 (到 8.1)， 相 关 的 纺 
但 技术 就 称 为 脉 串 编码 调制 (PCM, pulse coded modulation)。 图 像 信 号 的 PCM 表示 通常 不 用 于 
视频 编码 ,因为 与 其 他 信和 源 借 型 相 比 它 的 效率 较 低 。 

在 大 多 数 图 像 中 ,我 们 发 现 邻 近 像 素 的 颜色 相关 性 很 高 。 为 了 减少 比特 率 , BUT HT aot se 
利用 这 种 性 质 ,如 Karhunen-Loeve 变换 (KLT) ,离散 余 汞 (DCT) 或 小 波 变换 (将 在 第 9 章 和 第 11 
FEAR). EBT LE ZR OPE ATL AO SRE, HEEL EAE UE LR. aE 
要 量化 和 编 仅 的 参数 是 变换 系数 。 利 用 相 邻 样 点 间 相 关 性 的 另 -种 方法 是 项 测 编码 ; 这 种 方 
法 是 先 出 前 所 编码 的 样 点 预测 要 编码 的 样 点 值 ,然后 对 预测 误差 进行 量化 和 编码 , 顶 测 误差 与 
原始 信号 相 比 具有 较 小 的 相关 性 和 较 低 的 能 量 。 变 换 编码 和 预测 编码 都 可 看 做 是 矢 基 量化 的 
一 种 特殊 情况 ,矢量 量化 一 次 量化 一 个 样 卡 块 (一 个 矢量 )。 从 本 质 上 说, 它 寻找 出 现在 信号 中 
的 肉 卉 块 模式 ,并 用 典型 模式 之 -来 近似 任何 -个 块 。 

如 今 的 视频 编码 标准 H,261, H.263, MPEC-1, MPEG-2 和 MPEG-4( 将 在 第 13 章 中 讨论 ) 都 
采用 基于 块 的 混合 编码 方法 ; 它 综合 了 预测 编码 和 变换 编 但 (第 9 章 )。 这 种 编码 技术 把 每 幅 
像 分 成 辕 定 大 小 的 天 。 第 上 帧 的 每 个 块 用 前 面 第 上 -1 帧 的 一 个 已 位 移 位 置 处 的 相同 尺寸 
的 决 合成 得 到 。 对 第 帧 的 所 有 块 都 这 样 做 .这 样 产 生 的 图 像 称 为 预 浏 图 像 。 编 色 器 把 所 
有 块 的 二 维 运动 矢量 传送 到 解码 器 ,以 便 解 码 器 能 够 计算 同样 的 预测 图 像 。 编码 器 从 原始 图 
像 中 减 大 这 幅 预 测 疼 像 ,得 到 的 就 是 孩 测 误差 图 像 。 如 果 用 预测 图 像 来 合成 一 个 块 不 够 准确 
也 就 是 说 ,如 果 块 的 预测 误差 超出 某 个 阔 值 那么 编码 器 就 用 变换 编码 把 这 个 快 的 预 
测 误差 佐 送 到 解码 器 。 解 码 器 把 预测 误差 与 预测 图 像 相 加 ,从 而 介 成 解码 图 像 。 因此 ,基于 块 
的 混 介 编码 是 基于 平移 的 运动 块 信 源 模型 的 。 除了 颜色 信息 编码 为 预测 误差 的 变换 系数 外 ， 
还 必须 传输 运动 矢量 。 值得 注意 的 是 ,这 种 编码 可 切 换 到 较 简 单 的 像素 统计 相关 的 信 源 模型 。 
每 当 不 涉及 前 面 一 巾 就 能 更 有 效 地 完成 块 的 编码 时 就 进行 这 种 切换 。 
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RBI 信 源 模型 参数 集 和 编码 技术 的 比较 
信 源 机 型 编码 参数 编码 技术 
统计 独立 的 像素 每 个 像素 的 颜色 TCM 
统计 相关 的 像素 每 个 块 的 颜色 变换 编码 .预测 编码 和 欠 量 重 化 
平移 运动 的 鼎 每 个 块 的 颜色 和 运动 矢量 基于 次 的 混合 编 码 
适 动 的 本 知 物体 每 个 物体 的 形状 ,运动 和 颜色 分 析 与 合成 编码 
运动 的 已 知 物体 每 个 已 知 物体 的 形状 运动 和 颜色 基于 知识 的 编码 
已 知行 为 的 运动 已 知 物体 每 个 物体 的 形状 ,颜色 和 行为 语义 编码 





物体 的 形状 。 


基于 内 容 的 编码 ”上述 基 于 快 的 浪 合 缩 码 技术 实际 上 是 用 固定 大 小 的 方块 来 近似 场景 中 
在 物体 边界 上 的 抉 中 它们 会 产生 高 顶 测 误 养 。 这 些 边界 快 包含 具有 不 同 运 














动 的 两 种 物体 ,因此 用 一 个 运动 矢量 就 不 能 说 明 随 个 不 同 的 运动 。 基 于 内 容 的 编码 器 认识 全 
这 样 的 问题 ,企图 把 视频 帧 分 成 对 应 于 不 同 物体 的 区 域 ,并 分 别 编码 这 些 物体 。 对 于 每 个 物 
体 , 除 了 运动 和 纹理 信息 外 还 必须 传输 形状 信息 。 
在 基于 物体 的 分 析 与 合成 编码 (OBASC ,将 在 第 10 章 中 讨论 ) 中 ,通过 模型 物体 描述 视频 
场景 的 每 个 运动 物体 、 为 了 描述 物体 的 形状 ,分 析 与 合成 编码 采用 分 割 算法 。 此 外 ,还 估计 每 
个 物体 的 运动 和 纹理 参数 。 在 最 简单 情况 下 ,二 维 轮廓 描述 物体 形状 ,运动 欠 量 场 描述 它 的 运 
动 ,而 颜色 波形 描述 它 的 纹理 。 其 他 方法 用 三 维 线 框 描述 物体 。 用 第 - 
和 颜色 以 及 形状 和 运动 的 更 新 参数 来 描述 第 帧 中 的 物体 。 解码 器 用 当前 运动 和 形状 参数 
以 及 前 一 帧 的 颜色 参数 合成 物体 。 只 对 那些 图 像 合 成 失败 的 网 像 区域 , 才 传输 颜色 信息 、 




















在 视频 序列 中 的 物体 种 类 已 知 的 情况 下 ,可 








的 线 框 来 措 述 已 识别 出 的 物体 类 型 (第 10 章 )。 已 经 开发 了 几 种 用 预定 义 
的 方法 。 使 用 预定 义 线 框 可 增加 编码 效率 ,因为 它 自 适应 于 物体 的 形状 。 有 时 ,也 把 这 种 技术 
称 为 基于 模型 的 编码 。 


当 已 知 可 能 的 物体 类 型 和 它们 的 行为 时 ,本 





1 帧 中 物体 的 形状 


采用 基于 知识 的 编码 ,这 种 编码 使 用 特别 设计 


的 线 框 来 编码 人 头 


[以 用 语义 编码 。 例 如 ,对 于 一 个 人 脸 物体 ， 行 


为 指 的 是 与 特殊 面部 表情 相关 的 一 系列 面部 特征 点 的 时 间 轨 迹 。 人 脸 的 可 能 行为 包括 典型 
RRN WARN ARE. 在 这 种 情况 下 , 估 计 描述 物体 行为 的 参数 并 传输 给 解码 


器 。 这 种 编码 方法 有 达到 非常 高 的 编码 效率 的 潜力 ， 

















为 物体 (如 脸 ) 可 能 的 行为 数 日 非常 小 ， 


质 以 说 明 行为 所 需 的 比特 数 比 几 传统 的 运动 和 颜色 参数 描述 实际 动作 所 需 的 比特 数 少 得 多 。 
8.2 概率 论 和 信息 论 中 的 基本 概念 


随机 过 程 作 为 信 源 。 编 码 方法 的 效率 取决 于 如 何 充分 利 | 


在 视频 编码 或 任何 信号 编码 中 ,把 给 定 信号 作为 随机 过 程 的 一 个 实现 。 在 


























信 源 编 码 理论 中 ,把 


信 源 的 统计 特性 。 在 介绍 信 源 编码 理论 


和 技术 前 ,首先 回顾 如 何 用 驾 率 分 布 表示 随机 过 程 , 并 从 信息 理论 中 引出 精 和 革 信 息 的 概念 。 
8.2.1 平稳 信 源 的 特征 


W, 


7 





我 们 只 考虑 定义 在 离散 索引 








集 上 的 信 源 ,从 而 入 源 是 一 个 随机 序列 。 月 





HF = {| 表示 信 


其 中 下, 表示 对 应 于 第 个 样 点 的 随机 变量 (RV)。 在 给 定 的 实现 中 ,所 取 的 实际 值 由 
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LER 注意, 对 于 多 维 空间 上 的 离散 信号 , 既 可 以 把 它 排 罚 成 一 维 序列 ,这 时 n ERRET 
的 一 维 索引 ;也 可 以 假设 = 是 多 维 索 引 。 问 样 ,天 。 可 以 是 标量 也 可 以 起 矢 其 。 在 后 一 种 情况 
FF, 也 称 为 随机 矢量 ,如 朵 下, 仅 可 从 一 个 有 限 的 字母 表 4 = io ays a, | RE OB 
AMRF, AE RRL Fy BRE, 

作为 例子 考虑 -- 个 数字 彩色 视频 。 在 此 情况 下 ,索引 n 表示 像素 位 置 和 帧 数 的 特殊 组 
MTF, e ERI RRE ”个 像素 所 取 的 三 基色 值 。 办 为 每 个 颜色 值 都 量化 为 256 
级 ,所 以 数 衬 视频 是 一 个 学 二 去 大 小 为 256 的 离散 信 源 。 任 何 给 定 的 视频 序列 都 是 这 个 离 骨 
随机 过 程 的 一 个 特殊 实现 。 另 一 方面 ,模拟 视频 是 一 个 连续 空间 的 过 续 幅度 的 随机 过 程 。 采 
样 过 程 把 它 转换 成 -个 离散 空间 的 连 绪 幅度 的 过 程 。 只 有 在 其 化 后 , 它 奢 灾 成 离散 空间 的 离 
获 幅 度 的 过 程 ( 即 离散 信 源 )、 在 真实 世界 中 .通常 用 采样 和 量化 的 方法 就 可 以 由 连续 空间 连 
续 幅 度 的 信 涉 获得 离散 信 源 。 

在 本 户 中 ,我 们 仅 考 虐 半 稳 过 程 ; 存 平 稳 过 碍 中 ,三 , 的 购 率 分 布 不 取决 于 索引 ,而 且 对 
于 索引 出 的 共同 位 务 ,一 组 W 个 样 点 的 联合 分 布 不 变 。 我 们 用 pr, (了 ) 表 示 在 高 散 信 源 情况 
F 的 概 举 质 盟 函 数 (pmi) 或 在 连续 信 源 情况 下 的 概率 密度 两 数 (pdf)。 和 另外 ,我 们 用 
PE Fac Fans Sivas dy) BAF PEAT NOPE AUR EEE BR OR E 
BER, RI pr re, me, g See fans tA EOE BL W 个 样 点 时 


MEST. RARER OR Te AE RE ee MAAN E 下 文 关系 很 清楚 时 ,我 们 就 
简单 地 用 DOA) PCA fav AO pf afi RR HERK 

-类 更 此 的 平稳 信 源 称 为 独立 恒 等 分 布 (i.i.d.) 信 源 , 它 满足 of Sofa) = BA) 
PL pel phe ar fei f= Pao iad. ARKET. BIR 
SEM V RTA SAR HT RAHE, Ak PALEY — ME BREE A 样 点 ,也 就 是 说 ， 
P Fite rf) = pKfurilfw)。 更 一 般 地 ,一 个 村 阶 马尔 可 夫 过 程 是 ,在 这 个 过 程 中 一 
个 样 点 促 皮 次 于 它 前 面 的 地 个 样 点 。 任何 NY 个 样 点 符合 入 阶 高 斯 分 布 的 过 程 称 为 高 斯 过 
程 。 如 果 两 个 样 态 基 ,和 天 a。 之 问 协 方差 的 形式 是 CCF Fn) = pr mm ,一 个 高 斯 过 程 足 马 
尔 汀 大 过 程 。 在 过 程 是 二 维 的 情况 下 ,这 样 的 过 程 称 为 高斯 -马尔 可 夫 过 程 或 高 斯 - 己 尔 林 夫 
场 (GMF)。 企 图 像 和 视频 处 理 中 ,实际 图 像 或 视频 帧 常 以 GMF 为 模型 。 


8.2.2 离散 信 源 的 粹 和 互信 息 


本 节 介 绍 信息 理论 中 的 两 个 非常 重要 的 概念 : 炳 和 互信 息 。 正 如 将 要 看 到 的 ,它们 分 别提 
供用 无 损 和 有 有 损 编 码 所 能 达到 的 最 小 比特 率 的 界限 。 我 们 首先 定义 离散 RY AOS, 
然 三 骨 把 这 些 定义 应 用 于 离散 信 源 的 样 点 。 

定义 8.1{ 离 散 RV KR) 具有 宁 母 表 4 和 概率 质量 郴 数 pr (/) 的 离散 随机 实景 FN 
定义 为 : 


























rey cast? 
H(F) 2 pr Mower A) (8.2.1) 


AAP ABO AI EIS A Ph iol JRE UE TITER ILE TASES SL SAR, BA SEON 
© CAR AAR PL aS BAL. 
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通常 ,log 可 取 任 何 底数 。 在 此 仅 考虑 以 2 为 底 的 情况 ,以 便 用 比特 表示 粹 。 同 时 假设 
OlogO = 0, 以 便 拒 零 概 举 的 符号 如 到 字母 表 中 不 会 改 灾 生 。 

离散 RY 的 炳 总 是 非 负 的 ,因为 对 任何 司 举 质量 函数 部 有 0<p(f) <1。 AFERKA L 
的 所 有 RY IB PSI pC) = 1L, fC A 达到 最 大 炉 , Ho = log Lo 

WELF RV 下 不 人 确定 性 的 测度 。 它 取决 于 天 的 概率 质量 函数 ,市 不 取决 于 天 所 用 的 实际 
字母 表 。 如 果 下 能够 以 等 概率 取 4 中 的 任何 值 , 它 就 最 不 确定 ,因此 它 具 有 最 大 炉 。 另 一 方 
TO RF VARS 1 取 4 中 的 一 个 特 狐 符号 , 则 它 没有 不 确定 性 ,因此 信 就 为 堆 。RYV 的 不 确定 
性 又 可 以 认为 足 能 够 被 RV 所 携带 的 信息 : 当 向 一 个 人 出 示 天 所 取 的 实际 值 时 ,第 一 种 情况 可 
以 比 第 二 种 情况 告诉 这 个 人 更 多 的 信息 。 

定义 8.2 (两 个 离散 RV RAH) SFG ERBABI RV ,其 有 联合 概率 质量 丽 数 
prog) JEA g EAr: 它们 的 联合 炳 定义 为 : 

H(F.G) egpre (fg) (8.2.2) 


定义 8.3( 两 个 离散 RV ZIRE) 邻 大 和 5 表示 两 个 离散 RV AA A 
po (8) 和 条 件 概 从 质量 函数 pz je Sla) SEA g EA, o TREG AYRE F FSR ERIE SON: 


H(F 1G) = 2 pole) HF tg) 
Kea, 





























=- Dyro le) Dapre SI Bg)logpprig (f | g) (8.2.3) 
gE fE i 


定义 8,4( 两 个 离散 RV 之 间 的 互信 息 】 SF AORN TORK RV, 具 有 联合 概率 质量 两 数 
PEGS BI LEA gE Ag ,以 及 边际 分 铅 pp (OA pe (g)。 下 与 9 之 间 的 互信 息 定义 为 : 
o . rolfig) 
HFG) = D, Soro lon ge yt (8.2.4) 
F 5 之 间 的 互信 息 确 定 8 关于 大 所 提供 的 信息 量 。 换 句 话 说 ,在 给 定 9 的 -… 个 实现 时 , 它 度 
量 确定 大 所 需 的 比特 数 的 减少 。 王 信息 总 是非 负 的 。 容 易 证 明 ， 
HFG) = 1G;F) 20 (8.2.5) 
W RANE RADHA PR OM ALIS ER. iE 
容易 证 明 这 些 关 系 ( 习 题 8.2)。 











HFG) = H(G) + H(F 1G) = WF) + GIF) (8.2.6) 
UF SG) = H(F) - HUF 1G) = HG) - HG IF) (8.2.7) 
UF 3G) = H(F) + HG) - H(F,G9) (8.2.8) 
I(F;G) HF), MFG) HG) (8.2.9) 

HF) = AH(F 19), HG) > H(G |F) (8.2.10) 
H(F G) gH(F) + HG) (8.2.11) 
KFF) HF) = HF F) (8.2.12) 


公式 (8.2.19) 表 明 条 件 作用 减 小 了 RV COU ARETE). MARE.. UBB, FG) 
描述 由 知道 86 调 引 起 的 天 不 确定 性 (或 信息 ) 的 减 小 。 

F 述 定义 是 对 一 个 RY 或 两 个 RY 之 间 给 出 的 。 对 于 随机 矢 基 也 本 类 似 地 定义 它们 。 把 
这 些 定 义 应 用 到 出 离散 平稳 信 源 的 相继 样 点 组 成 的 随机 矢量 ,我 们 得 到 如 下 的 定义 。 
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定义 8.5( 离 散 信 源 的 粹 】 其 有 N 阶 联合 概率 质量 丽 数 pf 放 , 户 ,… fa) IR 
FAN BREF H N PRESE Far, Fa 之 问 的 联合 精 ， 
HF) = 机 (FF FN) 
2- B Pofon Ngh Sa) (8.2.13) 


Up h EA 
其 中 .A* 表示 A 的 N TRINE JL( Cartesian) Ro 
定义 8.6( 离 散 信 源 的 条 件 炳 ) 具有 W 阶 联合 概率 质量 两 数 p{/,, 记 ，,…, fu) M ME 
件 概率 质 是 函数 p (fy furfur AO R BOERE i M 阶 条 件 炉 , 中 在 给 定 样 点 
Fun KIR M AREF Fares oF, 的 条 件 下 Fw 的 条 件 入 ; 
He (FY = HOF wr | Fu, Fua, Fa) 
= phe PHF ffi) (8.2.14) 


Hia MISA 
其 中 
HCF ma | fur fy, A) 


= D Pea farfan tA Noep (fon afar) (8.2.15) 


HE 


定义 8. 了 (离散 信 源 的 精 率 ) ENLA, (FA Hey (天) 都 是 N 的 非 递增 随 数 。 而 
Filim, .Hy( 天) 和 limw.。 环 ,x( 大 ) 都 存在 县 相等。 这 个 极限 定义 为 该 倍 源 的 坑 率 ; 


HF) = Jim WHF) = lim Hea (F) (8.2.16) 
KS REZ TEHO S.I PENAMA NM H: 
BAF) = Ste) + HCF) (8.2.17) 
WF) < Hoy. SF) x IMF) s MF) (8.2.18) 
如 打下 是 独立 恒 等 分 布 ,那么 : 
HF) = DHF) = Heyl F) = HF) (8.2.19) 


如 将 在 8.3.1 SF FB OMY, HRS A HCY EP SB LA AS BR, 
只 有 当 匹 数 的 样 点 起 编码 时 才能 满足 此 条 件 。 曙 一 方面, 当 一 个 样 点 独立 地 编码 或 以 前 面 
的 样 必 为 条 件 进行 编码 时 ,一 阶 精 和 条 件 焙 分 别提 供 可 达到 的 比特 率 下 限 

定义 8.8{ 离 散 信 源 之 各 的 互信 息 ) 令 天 和 9 分 别 表示 具有 阶 概 六 质量 函数 p( his 
GFT plaig gr) 的 两 个 离散 平稳 信 源 ,并 令 fi fas Sos Bi vas ts By) BORE 
WN MER SSH Y 个 样 点 的 联合 概率 质量 两 数 。 大 与 9 之 问 的 N 阶 呈 信息 定义 为 ， 


WEG = > PU far fines ga gy) 


NA lary. say le AS 





. P&S Fart fy B11 E gy) 
be BG dae pl Biv Ba) (8.2.20) 
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在 有 损 信 源 编码 中 , 信 源 天 = F. ! 由 量化 的 形式 9 = 19, | 表示。 一 阶 互信 息 FG) 
度量 显 化 后 的 样 点 9。 关 于 旗 始 样 点 天。 所 提供 的 信息 量 、 另 一 方面 , iv( 天 ;8) 度 量具 有 N 
个 基 化 样 点 的 快 关于 原始 N 个 翌 点 所 提供 的 信息 。 将 在 8.3.2 节 中 说 明 ,limw-。 min (Fs 
乡 ) 提 供 大 和 乡 之 间 所 期 望 的 失真 D 所 凯 的 最 小 比特 率 下 限 ,这 里 是 在 相对 于 下 失真 为 D 的 
所 有 可 能 9 上 取 最 小 。 

8.2.3 RERAMA 

对 于 连续 信 源 ,在 支撑 区 从 任何 可 能 值 的 概率 质量 函数 为 零 。 直 接应 用 前 面 定义 的 炳 就 
会 得 到 无 穷 精 。 换 一 种 办 法 ,我们 用 信 源 的 概率 窑 度 两 数 来 定义 微分 类 上 。 

定义 8.9( 连 续 RV 的 微分 炳 ) 具有 支撑 区 昌 和 概率 密度 丽 数 pr (了 的 连续 随机 变 基 F 
的 微分 炳 定义 为 : 





AUF) =- far (log pz (Pdf (8.2.21) 
ERRE GHAI WOES: RV MAES ES, SN AA, BT BE 
SAE SE I BOTERE, CHEC- e, o ) 范 围 内 变化 。 
在 8.2.2 节 中 为 离散 信 涛 做 出 的 所 有 其 他 的 定义 (包括 联合 炳 ,条件 炳 以 及 王 信 息 ) 可 以 
类 似 地 为 连续 信 源 做 出 ,只 须 抒 任何 所 涉及 到 的 概率 质量 函数 用 相应 的 概率 密度 函数 代替 即 
可 。 类 似 地 , ,条 件 炳 和 互信 息 之 间 的 关系 式 仍然 成 立 ,只 须 用 微分 录 代 峙 彤 。 
高 斯 信 源 -个 非常 重要 的 连续 信 源 是 高斯 信 源 , 它 的 每 个 样 点 都 符合 高 斯 分 布 ,日 每 组 
入 个 样 点 符合 联合 高 斯 分 布 。 这 里 ,我 们 给 出 高 斯 随机 变量 (RV) 和 高斯 随机 失 景 的 微分 杭 。 
具有 均值 9 AU o 的 高 斯 RY 的 概率 密度 函数 为 
A = Le _ we 
pf) = io > SEC 1%) (8.2.22) 
可 以 证 明 ( 习 跑 8.4) AYO: 
hewn = Fog, (2meo?) (8.2.23) 
一 个 均值 为 好 , 协 方差 矩阵 为 [C] 的 N 维 高 斯 随机 矢量 天 的 联合 概率 密度 函数 为 ， 
1 1 了 -1 
p(f) = Wan” Taare- 了 人- pIE- p) 8.2.24) 
可 以 证 明 这 个 随机 矢量 的 微分 炳 (或 N MERKA E: 
hu = Flog (2ne)” 1det[C] 1) = log( (2xe)*I Ta,) (8.2.25) 


其 中 心 (mn= 1,2,-+, ELC BRE. 

高 斯 分 布 的 一 个 重要 特征 是 高 斯 RY 在 具有 相同 方差 的 所 有 连续 RV 中 有 最 大 的 精 。 类 
似 地 ,高 斯 随机 矢量 在 具有 相同 协 方差 矩阵 的 所 有 随机 矢量 中 有 最 大 的 灶 。 这 就 使 沿 斯 信 源 
最 难于 编码 ,因为 对 给 定 的 失真 准则 它 需 要 用 比 其 他 任何 信 源 都 要 高 的 比特 率 来 表示 。 

















T ACTS: PCAs eA A TA 
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8.3 信 源 编码 的 信息 理论 


信息 论 的 扩 个 重要 结果 建立 了 信 源 编码 的 理论 基础 @。 源 于 信息 论 之 父 香 农 (Shannon) 的 这 
此 结果 建立 了 实现 巨 提 编码 和 有 损 编码 所 需要 的 最 低 比 特 率 的 界限 。 严 格 并 全 面 地 介绍 这 个 诬 
题 超出 了 本 书 的 范 | 村 ， 本 节 的 内 容 是 要 帮助 小 省 理解 信 源 编码 的 理论 极限 ,以 及 学 习 如 何 运 用 
它们 来 指导 实际 编码 技术 的 设计 。 为 了 更 深入 研究 ,读者 可 参考 Cover 和 Thomas[3] 以 必 Berger 
‘Is 


8.3.1 无 损 编码 的 界限 


标量 无 损 编码 ”对 于 川 字母 表 4 = | a ,0,,…, 0! 表示 的 离散 信 源 天 的 一 个 特定 实现 
i i, 标 十 无 损 编 码 是 指 给 生 个 梯 点 大 分 配 一 个 一 进 制 码 宁 e, 、 这 上 昌 求 项 先 设 计 一 个 码 攻 C 
= lela dela di eal, HI ela ERS a, MBF FES, BFR e = (fo 
为 了 使 码 书 是 和 有 用 的 ,编码 序列 必须 是 惟一 可 解码 的 ;也 就 是 说 ,一 个 码 字 序列 必须 对 应 - -个 
已 只 有 个 机 能 的 信 源 符号 序列 。 注 意 ,这 是 比 字母 表 与 码 书 之 问 的 “对 一 喘 射 更 强 的 要 求 ， 
令 1(a) 表 示 elm,) 的 长 度 ( 即 比特 数 ), 则 比特 这 定义 为 每 个 样 点 的 平均 比特 数 匀 ,等 于 每 个 码 
FEFA KE, CRE: 














R= > pladlla) (8.3.1) 
«eA 


定理 8.1( 标 量 无 损 编码 的 界限 ) 道 过 为 每 个 样 点 分 配 一 个 码 字 来 表示 离散 平稳 信 源 
三 ,所 岩 要 的 最 小 比特 率 R (FWE: 
WCF) g RF) eg WF) 41 (8.3.2) 
当 伟 沼 的 慨 举 质量 国 数 是 2 CR RU RP. RE RIER m, ma 
m iE pla)=2™. 在 这 种 情况 下 , 1(@)= -logp(e) = mo 
定理 8.1 告诉 我 们 离散 信 源 的 一 阶 炳 H (大 ) 决 定 了 信 源 标量 编码 的 最 低 比 特 率 的 范围。 
这 并 不 奇怪 ,因为 HF ) 度 量 信 源 中 的 每 个 新 样 点 所 携带 的 信息 内 容 (以 比特 / 样 点 表示 )。 
矢量 无 损 编码 ”上述 定 理 告诉 我 们 ,与 信 源 有 关 , 最 小 可 达到 的 比特 率 可 以 与 - 阶 焙 相差 
! 比特 / 样 点 。 为 了 进一步 减少 比特 率 , 可 把 离散 序列 中 每 红 相 继 的 AN 个 样 点 作为 一 个 关 量 采 
样 对 待 ,并 为 4* 中 的 每 个 可 能 的 矢 基 符号 分 配 -一 个 码 字 。 矢量 信 源 的 一 阶 米 是 原始 信 源 的 
NTN. SUAS RY 表示 每 个 矢量 的 最 小 比特 数 ,那么 把 定量 8.1 用 于 上 述 矢量 信 源 就 有 : 
AF) g RF)  Hy(F) + (8.3.3) 
WORD Ry = RUIN 表示 每 个 样 点 的 最 小 比特 数 ,就 得 出 如 下 定 埋 。 
定理 8.2( 矢 董 无 栅 编码 界限 ) 若 通过 给 每 组 w 个 相继 样 点 分 配 - -个 码 宁 来 表示 离散 平 
BERF ,所 需要 的 最 小 比特 府 Ry (F ) 满 足 : 











Ey 信 浙 编码 足 指 把 笠 点 从 信 源 针 成 二 进 制 比 特 流 的 过 程 ,而 信道 编码 是 指 进一步 处 理 信 源 此 特 ,以 加 入 抗 传输 误 码 的 
RE, 

D WABI, TR ATE PARE READ HCA bps). EER FPN ALLA R PILAR BE i 
样 点 的 信 小 ,以 bps AMAI EEE R 


人 
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Hy(F IN = Ry(F) < Hy( FN + UN (8.3.4) 
当 No oo 的 极限 情况 下 ,由 公式 (8.2.16) ,我 们 有 : 
limRn(F) = H(F) (8.3.5) 


定理 8.2 URI DHE BRE EE TO OE OE 
条 件 无 损 编 码 ”我 们 已 经 看 到 借助 矢量 编码 可 改进 标量 编码 的 效率 。 另 外 一 种 方法 是 条 
件 编码 ,也 称 为 基于 .上 下 文 的 编码 。 对 于 1 阶 条 件 编码 , 当前 样 点 的 码 字 取决 于 前 面 好 个 样 
点 所 形成 的 模式 。 称 这 种 模式 为 下文。 具体 地 说 ,基于 给 定 上 下 文 的 输出 样 点 的 条 件 分 布 ， 
对 每 种 可 能 的 上 下 文 设 计 分 离 的 翁 书 。 如 果 表示 信 源 的 字母 表 的 长 度 为 L, 那 么 上 下 文 的 最 
大 数 日 ,也 就 是 码 书 的 最 大 数目 为 1*。 将 定理 8.1 应 用 于 上 下 文 m 下 的 条 件 分布 , 在 这 种 上 
下 文 下 的 最 小 比特 率 满足 ; 
HenTF) Ren(F) S Heu(F)+1 (8.3.6) 


其 中 , Heal F BARE FS m 下 的 MM BRE SAE. D py BA 上下文 m 的 概率 , 则 对 于 条 
件 阶 M 的 平均 最 小 比特 率 是 : 
Reul F) = Dp Rta F) (8.3.7) 
把 公式 (8.3.6) 代 和 上 式 就 得 到 以 下 结果 。 
定理 8.3{ 条 件 无 损 编 码 界限 } 用 1 阶 条 件 编码 表示 离散 平稳 信 源 大 ,所 需要 的 最 小 比 
RE Reul TOWE: 


























Heul F) e Ren(F) a How(F) 41 (8.3.8) 
E MW 一 om 的 极限 情况 下 ,我 们 有 ; 
Fie dim Rew(F) < ACF) +1 (8.3.9) 


GRA(8.3.2) HORE, At Ha TI EER E Sa Us BEE OO LB CF) < AF) 
一 一 除非 信 源 是 独立 恒 等 分 布 。 然 而 ,因为 一 次 仍然 编码 一 个 样 点 ,所 以 即使 条 件 阶 4 趋 于 
% BRAGG ERE ! 比特 。N 阶 矢量 无 损 编码 与 第 (N - 1) 阶 条 件 编码 比较 ,按照 公式 
(8.2.18) ,前 者 总 有 相同 的 或 更 大 的 下 限 。 然 而 ,如 果 入 Hy( 玉 ) - Hey (F< (N-DIN,® 
量 编码 就 有 更 小 的 上 限 。 因 此 ,哪个 方法 更 有 效 取决 于 实际 信 源 的 统计 特性 。 


8.3.2 有 损 编码 的 界限 


如 果 信 源 是 连续 的 ,用 有 限 的 比特 数 准 确 地 表示 它 是 不 可 能 的 。 回 想 连 续 信 源 的 绝对 闹 
率 是 无 穷 的 。 因 此 ,将 无损 编码 界限 (公式 (8.3.5)) 应 用 于 连续 信 源 就 会 得 到 一 个 无 穷 的 最 小 
比特 率 。 为 了 用 有 限 比特 数 描述 连续 信 源 ,必须 以 某 种 方法 量化 信 源 , 以便 每 个 样 点 或 每 组 样 
点 只 可 从 有 限 字母 表 中 取 符 号 。 这 种 量化 不 可 避免 地 会 引起 原始 信 源 与 基于 量化 表示 的 重建 
信 源 之 间 的 失真 。 我 们 可 以 直接 量化 信 源 样 点 ,可 以 一 次 量化 一 个 样 点 (标量 量化 ) 或 一 次 量 
化 一 组 样 点 (条 车 量化 ) ,或 把 样 点 变换 成 一 些 其 他 的 参数 并 量化 所 得 的 参数 。 然 后 可 把 量化 
后 的 符号 无 损 编 码 成 二 进 制 码 字 。 在 解码 器 中 ,首先 把 码 字 映 射 回 量化 后 的 符号 ,再 用 符号 重 
































” 带 有 旦 号 的 节 可 以 跳 过 或 者 可 图 待 进一步 的 研究 。 
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建 等 个 样 点 。 

-- 般 地 ,可 将 有 损 编码 过 程 认为 是 把 每 个 原始 信 源 下 的 六 个 样 点 组 成 的 输 人 矢量 
f= lff ,fr 映射 到 一 个 量化 矢量 g= 0(f)。 矢 晤 g 必须 属于 预 完 设计 的 有 限 长 度 上 的 
RAMH, = lea. gto RAER EA g 的 每 个 分 量 只 可 从 相同 的 支撑 区 必 中 取 值 。 
采用 园 定 长 度 编码 ,每 个 量化 矢量 用 logy (并 ) 个 比特 表示 , 则 编 础 序列 的 比特 率 ( 比 特 / 样 点 ) 是 : 








Ry = log (L) (8.3.10) 

给 定 一 个 奔 先 设计 的 重建 码 书 ,通过 对 码 字 的 索引 应 用 可 变 长 编码 ,由 公式 (8.3.10) 所 得 的 比 
特 率 可 以 进一步 减少 。 然 而 ,在 下 面 的 讨论 中 ,我 们 假设 按照 公式 (8.3.10) 来 确定 比特 率 。 

为 了 满足 天 和 9 之 间 的 给 定 失 真 准则 ,所 需要 的 码 IE L 取决 于 编码 方案 ( 即 码 书 是 
如 何 设计 的 )。 从 直觉 上 来 说 ,增加 矢量 长 度 m 可 减少 比特 率 , 特 别 是 当 信 源 不 是 独立 王 等 分 
布 时 。 率 失真 理论 定义 了 当 N BF ott ,达到 给 定 失真 所 需要 的 比特 率 的 下 限 。 

注意 ,有 损 编码 可 应 用 于 连续 的 和 离散 的 贾 种 信 小 。 回 想 对 于 离散 信 源 ER 
码 所 需要 的 最 小 比特 率 是 受信 源 炳 率 限 制 的 。 为 了 达到 更 低 的 码 率 ,必须 把 样 点 量化 到 较 小 
的 字母 下 ,因此 就 会 产生 一 定 程度 的 失真 。 以 下 讨论 适用 于 连续 的 和 离散 的 信 源 。 

失真 测度 ”到 目前 为 上 ,我 们 已 使 用 了 术语 “失真 "一 词 ,但 没有 正式 定义 它 。 为 了 度量 原 
始 信 源 开 和 重建 信 源 9 之 间 的 失真 ,我 们 首先 定义 两 个 标量 /和 之 加 的 失真 测度 df.) 
如 果 了 和 g 部 是 实数 ,最 常用 的 失真 测度 是 平方 误差 @ (f,g) = (F-gyY MARÉ di fg) 
=If-gl. 这 样 ,原始 矢量 f 和 重建 失重 g 之 间 的 每 个 桩 点 的 平均 失真 是 ; 


ED = DN ee) (8.3.11) 


这 个 失真 是 为 给 定 的 矢量 和 它 的 重建 矢量 定义 的 。 为 了 评估 所 有 可 能 的 输 人 矢量 的 平均 
性能, SAR BHR ON 时 ,我 们 定义 如 下 的 天 和 乡 之 问 的 期 望 失真 ， 





Bld FG)! =] ss pr Bors | Nady Leena (8.3.12) 


HEP, py DRRF PR N REE RE SS OKA ERE ERA, ,yw (gl 全 表示 了 被 重建 为 g 的 条 件 
概率 ,而 BN 表示 8 的 N REFILER, EE, gy(g1f) 从 根木 上 表征 了 编码 方案 ,尽管 在 实际 中 
是 采用 了 和 8 之 疗 的 确定 性 的 映射 。 当 di (及 APA RAE, EWE RAM RE 
(MSE); MSE 得 到 广泛 应 用 ,主要 是 因为 它 在 数学 上 易于 处 理 。 

以 上 ,我 们 假设 信 源 是 连续 的 , 池 数 py (-), gy () 表 示 概 率 密度 最 数 。 如 果 信 源 是 离散 
的 ,应 该 由 A* 上 的 求 和 代 赫 5* 上 的 积分 ,而 py (+), gy() 则 表示 相应 的 概率 质量 语 数 。 

率 失真 界限 ”有 损 编码 器 的 性 能 是 通过 和 运算 率 失 真 (RD 函数 度量 的 ,表示 为 RCD) ,对 
于 给 定 的 信 源 特征 , 它 描 述 达到 给 定 失 真 D 所 需要 的 比特 率 R。 率 失 真 定理 (定理 8.4) 建 立 
了 当 矢 量 长 度 N 趋 于 “时 ,在 所 有 可 能 的 编码 器 中 所 需要 的 最 小 码 率 的 界限 。 我 们 称 最 小 码 
率 与 撩 真 的 关系 函数 为 率 失真 界限 ,用 巨 (万 ) 表 示 。 令 Ry(D; glg ARAH qn (gt OTH 
述 的 编码 方案 为 达到 失真 D AERA LE, N RD 界限 定义 为 ; 

RCD) = lim min Ry(Digy(g tf) (8.3.13) 


Nre aylBIBE Oy, y 


其 中 
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Qon = laag lO: Eldy(F,G)} < DI (8.3.14) 
是 条 件 概率 集 ( 即 编码 方案 ) . 它 满足 所 规定 的 失真 约束 。 
定理 8.4( 有 损 编码 界限 ) 在 失真 D 下 编码 平稳 信 源 无 的 RD 界限 由 下 式 给 出 ?; 
R(D) = lim min Th F 9) (8.3.15) 


Ne gy lRID EQ, y 
当 信 源 是 独立 恒 等 分 布 (i.i.q.) 时 ,RD 界限 变 成 
R(D)= min I(F;,9) (8.3.16) 


a IDE) 

ERR h (下 ;9 ) 描 述 9 的 六 个 样 点 关于 相应 的 天 的 六 个 样 点 所 提供 的 信息 量 。 因 此 ,不 
RAB- 1( 开 ;9 ) 可 以 确定 当 Nw 日 失真 为 D 时 为 表示 天 所 需 的 比特 数 。 

信息 论 的 一 个 重要 结果 是 ,即使 当 信 源 是 i.i.d. 时 , 仍 可 以 通过 将 许多 样 点 一 起 编码 来 减 
少 比特 率 Ro 实际 上 ,只 有 当 矢 量 长 度 WAST lt RD 界限 才 是 可 达到 的 。 

一 般 地 , 定 垦 8.4 中 的 界限 对 于 任意 的 信 源 是 很 礁 计算 的 。 下 面 的 定理 描述 了 一 个 更 有 
用 的 界限 。 

定理 8.5 在 MSE 失真 准则 下 ,任何 平稳 信 源 王 的 RD 界限 满足 : 








R(D) < R(D) < RelD) (8.3.17) 
其 中 ,Rc (DD) 是 与 斑 有 相间 方差 的 高 斯 信 源 的 RD 界限 ,而 所 (DD) 称 为 香农 下 限 ,表示 为 : 
R (D) = hE(F)- Flog 2neD = Flog oF) (8.3.18) 


MOP ACF EF WERE, TH OCF ) = (ne) 2" BNF ORRE MF EMT R, (D) = 
Rol D)o 


定理 8,5 告诉 我 们 ,在 具有 相同 方差 的 所 有 信 源 中 ,为 满足 相 问 的 失真 准则 ,高 斯 信 源 需 
竖 的 比特 率 最 高 。 实 际 上 ,对 于 任何 信 源 ,满足 RD 界限 的 最 优 编码 方案 应 使 量化 误差 序列 是 


一 个 方差 为 D, IAPR 1 log, ded BY iid. 高 斯 信 源 。 因 此 ,公式 (8.3.18) 中 给 定 的 下 限 等 
于 原始 信 源 微分 炳 和 量化 误差 的 微分 焙 之 间 的 差 。 
8.3.3 高 斯 信 源 率 失真 的 界限 ” 


对 于 大 多 数 的 信 源 ,很 难 求 出 RD 界限 封闭 形式 的 解 。 各 种 类 型 的 高 斯 信 源 是 一 组 例外 ， 
当 失 真 准则 为 MSE 时 ,已 经 找到 了 其 封闭 形式 的 解 。 下 面 我 们 概括 这 些 结果 。 
Lid 高 斯 信 源 ”具有 方差 o: 的 iid. 高 斯 信 源 的 RD FRE: 

















1 a? 2 
二 She, 0s D 
RD) = 42°! Dp? 有 KF (8.3.19) 
0 Dr 


或 者 ,可 写 为 : 
D(R) = Pr” (8.3.20) 





O MHARE, ARF RD 函数 定义 为 等 式 (8.3.15) 的 右边 。 这 蜂 我 们 称 它 为 RRR., ERRATE U 
在 一 种 编码 方案 ,使 达到 失真 D 所 宕 要 的 比特 率 技 近 只 (DT13]。 
+ 带 有 显 号 的 节 可 以 跳 过 或 者 可 图 待 进一步 的 研究 。 
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具有 独立 分 量 的 i.i.d. 矢 是 高 斯 信 源 ”考虑 一 个 ii.d. 矢 景 高 斯 信 源 ,其 中 每 个 矢量 采 
ERFA oh n= 1.2.0, N 的 w 个 独立 高 斯 RV 组 成 。 这 种 信 源 的 RD ARE: 
Ra) = Emax{0, og gah 
Dla) = 7D), minla,%| 
其 中 ,a 是 PPS. S a 遍历 范围 (0,max|o? 1) 就 可 获得 合理 的 失真 区 域 的 RD 界限 。 
当 也 足够 小 , 即 Decmini ot, Lt, METRO ASR AL 
1, Td" 


R(D) = log, ~ D 





(8.3.21) 





(8.3.22) 


DR) = (Ll) 2" (8.3.23) 

对 一 个 矢 基 采样 中 的 每 个 分 量 进行 独 立 编码 可 达到 这 个 RD 界限 ,用 于 分 量 n 的 比特 数 

ER, = mafo, Flog (otla)}. MF ot ca 的 分 量 总 可 以 用 零 来 表示 ,从 而 R = 0。 对 于 其 他 

分 量 , 比 特 的 分 妃 应 使 它们 都 上 有 相同 的 失真 D, = w。 这 个 结果 可 以 通过 在 N 个 分 量 中 间 最 优 

SAAT ACES LORE NR 使 平均 失真 D 为 最 小 来 达到 。 实 质 上 , 它 要 求 选 择 比特 率 R ,使 得 不 
同 分 最 的 率 失 真 函 数 的 斜率 9D, (R, VIR, 在 这 些 比特 率 上 都 相等 。 


具有 相关 分 量 的 ii.d. 矢量 高 斯 信 源 令 [C] 表 示 每 个 和 撩 景 采样 的 NN 个 分 量 的 协 方差 矩 
BEIT (=1,2,…,A) 表 示 [C] 的 特征 值 。 这 种 信 源 的 RD 界限 是 : 











R(a) = Fl mafo, Hog, 42 
(8.3.24) 
Dla) = E>} minia ay! 
FIF, a € (0, max la, DE PS, 
3 DD 是 够 小 , 即 De min! A, | 时, 前面 的 公式 简化 为 
= | An vy uN 
RD) = Flog Qla) = Hog, LLC (8.3.25) 
或 
BCR) = ([ Ja.) 2 =1detLC] 1 (8.3.26) 


用 -个 由 [C] 的 特征 矢量 组 成 的 变换 矩阵 来 变换 原始 矢 景 ,此 时 变换 后 的 矢量 具有 独立 
分 量 ,然后 对 它 应 用 公式 (8.3.21) 中 的 RD 界限 ,就 得 到 上 述 结果 。 

一 般 高 斯 信 源 ”均值 为 y 的 任意 平稳 高 斯 信 源 可 由 它 的 自 协 方差 区 数 C(h) = EF, - 
DF aca pi 0, +1, RERI RR S) 来 描述 。 这 种 信 源 的 RD 界限 是 在 公 
式 (8.3.24) 中 所 给 出 的 RD 界限 当 N->w 时 的 极限 。 结 果 是 : 




















人 DS(e*) 是 Ca) Ae AL RII Lop a 
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R(a) = xf max{ 0,4 log, Sea 
5 (8.3.27) 


Dla) = E|’ minja, Ser) 1 do 
4D 足够 小 ,使 得 D> S(e*) B] o RRA ITY RING : 
R(D) = EJ low Se, (8.3.28) 
公式 (8.3.27) 告 诉 我 们 为 了 表示 失真 为 a DEEA SC BAW, S e) < a 的 频率 区 
域 不 必 编 码 , 而 其 余 区 域 的 编码 应 该 使 这 个 区 域 上 的 误差 信号 具有 与 a 相等 的 功率 。 这 个 比 


特 分 配 的 过 程 通常 称 为 道 向 注水 。 
在 其 有 Clk) = 0 lol* 的 一 阶 高 斯 - 马尔 可 夫 过 程 的 特殊 情况 下 ,我 们 有 : 











R(D) = Floss agt (8.3.29) 
或 

DOR) = C= p*)o?2® (8.3.30) 
8.4 二 进 制 编码 


二 进 制 编码 是 用 二 进 制 比特 序列 ( 称 为 码 字 ) 表 示 有 限 字 母 表 信 源 中 每 个 可 能 符号 的 过 
程 。 所 有 可 能 符号 的 码 字形 成 码 书 。 一 个 符号 可 以 对 应 一 个 或 几 个 诛 始 的 或 量化 后 的 像素 值 
或 模型 参数 。 因 为 从 符号 到 码 字 的 映射 是 一 一 对 应 的 ,因此 这 个 过 程 也 称 为 无 损 编码 。 

对 于 一 个 有 用 的 码 , 它 应 该 满足 以 下 属性 :(1) 它 应 该 可 惟一 解码 ,这 就 意味 着 在 码 字 和 符 
号 之 间 有 一 对 一 映射 的 关系 ;(2) 码 应 该 是 即时 可 解码 的 ,这 意味 着 如 果 一 组 比特 与 码 字 相 匹 
配 , 那 么 可 立即 解码 这 组 比特 ,而 不 需 检查 编码 序列 中 的 后 继 比特 ( 见 图 8.2)。 这 第 二 个 属性 
要 求 任何 码 字 的 前 缀 都 不 是 另 一 个 有 效 的 码 字 ; 这 种 码 称 为 前 缀 码 。 尽 管 即时 可 解码 性 是 比 
惟一 性 更 强 的 要 求 , 而 且 允 许 快速 解码 ,但 它 不 限制 编码 效率 。 可 以 证 明 ,对 于 同一 信 源 ,在 所 
有 惟一 可 解码 的 芭 中 前 级 编码 可 产生 最 小 比特 率 [4]。 所 有 实际 编码 方法 都 产生 前 缀 码 。 

很 明显 ,最 简单 的 二 进 制 码 是 所 有 可 能 符号 的 固定 长 度 的 二 进 制 表示 。 如 果 符 号 数 是 工 . 
那么 比特 率 就 是 [log, 5 ] 比 特 / 符 号 。 由 8.3.1 节 我 们 知道 ,任何 码 书 的 最 低 可 能 比特 率 是 信 源 
的 精 率 。 除 非 信 源 是 均匀 分 布 的 ,否则 固定 长 度 编码 方案 将 是 效率 很 低 的 ,因为 比特 率 比 闹 率 
高 得 多 。 为 了 降低 比特 率 , 需 要 可 变 长 编码 ( VLC) , 它 分 配 一 个 较 短 的 码 字 给 一 个 较 高 概率 的 
符号 ,所 以 平均 比特 率 低 。 因 为 适当 设计 的 可 变 长 编码 器 的 比特 率 可 接近 信 源 的 箭 ,所 以 可 变 
KS LPS ATS 

ASAT Aa. RS (Hulman) AE Ee ES A EK O 
字 ;1ZW 方法 把 可 变数 目的 符号 转 成 固定 长 度 的 码 字 ;而 算术 编码 把 可 变数 目的 符号 转 成 可 变 长 
度 的 码 字 。 险 夫 曼 和 算术 方法 是 基于 概率 模型 的 , 旦 都 可 逐渐 地 达到 精 界 限 。 算 术 编 码 方法 更 
容易 达到 渐进 性能 ; 且 容 易 适 应 信号 统计 特性 的 变化 ,但 它 比 哈 夫 曼 编 码 更 复杂 。LZ 双 方法 [12， 
10] 不 要 求 了 解 信号 的 统计 特 狂 ,因此 是 普遍 适 用 的 ,但 它 比 其 他 两 种 方法 的 效率 低 。 哈 夫 紧 和 
算术 编码 已 经 用 于 各 种 视频 编码 标准 中 。 在 以 下 两 小 节 中 将 描述 这 两 种 方法 。 
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比特 流 : O011010110100 


基于 码 据 1 解码 的 册 ( 可 即时 解码 ); OOM 1 O11 Ol 1 Of 010 a, a ä; as a; as ay 


基 寺 码 书 2 解码 的 申 (必须 考 虚 未 来 0911 0101101 00 a, ay az âq al ay 
的 比特 才能 解码 ): 

图 8.2 对 于 左边 的 但 书 (前 级 码 ), 给 定 的 比特 流 可 以 在 检测 到 一 个 完整 的 码 

宁 时 即时 解码 。 对 于 右 边 的 码 书 ( 非 前 绿 码 ) ,人 们 不 知道 比特 流 中 的 

第 一 个 "0" 是 对 应 码 字 “0”， 还 是 对 应 第 二 个 公 字 或 第 四 个 砂 字 中 的 第 

一 个 比特 。 必 须 检查 其 他 的 比特 以 做 出 判定 因为 第 一 个 比特 仍 是 "0"， 

然而 没有 起 始 是 两 个 "0" 的 码 字 ,所 以 可 知 第 一 个 "0" 必 须 对 应 码 字 “0" 


8.4.1 ABR 


哈 夫 曼 编码 是 具有 字母 表 4 = | ai , a,,…, a, | 和 概率 质量 丽 数 pla ) 的 离散 信 源 无 损 纺 
但 最 流行 的 方法 。 它 设计 针对 所 有 可 能 符号 的 码 书 ,使 得 出 现 较 频繁 的 符号 被 分 配 较 短 的 码 
字 。 设 计 哈 大 曼 编码 翁 书 的 基本 过 程 如 下 ，: 
步骤 1: 以 降序 排列 符号 概率 pla) = 1,2, L) ,并 把 它们 作为 树 的 叶 季 点 。 
步骤 2; 当 存在 一 个 以 上 的 节点 时 : 
(a) 找到 具有 最 小 概率 的 两 个 节点 ,并 任意 地 分 配 1 和 0 给 这 两 个 节点 。 
(b) 合并 这 两 个 节点 形成 一 个 新 的 节点 , 它 的 概率 是 这 两 个 合并 节点 的 概率 之 
和 。 返 回 步骤 1。 
步 聂 3: 对 于 每 个 符 导 ,通过 跟踪 从 对 应 的 时节 点 到 树 的 顶端 所 分 配 的 比特 来 确定 它 的 码 
字 。 叶 节点 的 比特 是 该 码 字 的 最 后 一 个 比特 。 


例 8.1 (标量 哈 夫 沁 编码 ) 
一 个 哈 夫 本 编码 的 例子 如 图 8.3 所 示 , 在 图 中 信 尖 由 4 个 符 呈 组成。 左边 两 列 给 出 了 符 
号 和 它们 的 概率 。 右边 两 列 给 出 这 些 符号 所 得 的 码 字 和 码 字 的 长 度 。 也 给 出 了 平均 比特 
率 尽 和 信 源 的 一 阶 炳 再 。 实 际 上 我 们 可 以 看 到 于 < 玉 < Ih +lo 


哈 夫 曼 编码 显著 的 缺点 是 : 当 应 用 于 各 个 样 点 时 -个 样 点 必须 至 少 用 一 个 比特 。 为 了 进 


- - 步 减少 比特 率 ,可 把 每 组 N 个 样 点 作为 - -个 实体 对 待 ,并 给 每 组 -个 码 字 。 这 就 导致 矢量 
哈 夫 曼 编码 , 它 是 矢量 无 损 编码 的 一 个 特殊 情况 。 这 在 下 一 个 例子 中 纷 出。 
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符号 RE 
1 
ean osoo 一 “ye 1 
1 » 
“b 02143 —— Morio “Ol 2 
1 0 
Hen 0.1703 of 05000 “ool” 3 
og 00s4 oj 0.2857 “900” 3 
HER = 1.7857 WH, = 1.7707 


图 8.3 标量 哈 夫 曼 编码 的 例子 ( 见 例 8.1) 


例 8.2 (矢量 喻 夫 受 编码 } 
考虑 与 例 8.1 一 样 的 字母 表 和 概率 质量 郧 数 。 假 设 我 们 进一步 知道 给 定 前 面 一 个 样 点 
下 ,1 时 , 样 点 下 ,的 条 件 分 布 由 如 下 短 阵 所 描述 : 
0.6250 0.3750 0.3750 0.3750 
ta = 0.1875 0.3125 0.1875 0.1875 (8.4.1) 
0.1250 0.1875 0.3125 0.1250 
0.0625 0.1250 0.1250 0.3125 
其 中 ,第 i 行 第 j 列 的 元 素 确定 条 件 概率 g(ilj) ,这 是 在 三,_1 等 于 第 j 个 符号 的 条 件 
下 矿 , 取 第 i 个 符号 的 概率 。 我 们 可 确定 每 两 个 样 点 的 联合 概 素质 量 函 数 为 
PA) = pa | fad (8.4.2) 
把 它 应 用 于 所 有 可 能 的 两 个 符号 的 组 合 , 我 们 得 到 所 有 可 能 的 二 维 矢量 符号 概率 , 它 
在 图 8.4 的 第 一 列 中 给 出 。 然 后 ,我 们 可 以 对 这 个 新 的 信 源 应 用 哈 夫 曼 编码 ;图 8.4 中 也 
给 出 了 所 得 到 的 码 书 。 在 这 种 情况 下 ,每 个 矢量 采样 的 比特 率 是 R= 3.5003, 而 每 个 样 


点 的 比特 率 是 RR = RR*:12=1.75015。 另 一 方面 ,所 /2 = 1.7314。 确 实 ,我 们 有 上 H, < Ry < 
j Hat Wn 与 例 8.1 中 的 结果 比较 可 以 看 出 ,通过 矢量 编码 使 比特 率 下 降 。 


也 可 以 把 两 个 样 点 一 起 编码 改 为 条 件 哈 夫 曼 编码 , 它 根据 前 面 样 点 所 取 的 符号 使 用 不 同 
HB. W FERR. 
例 8.3 (条 件 哈 夫 曼 编码 ) 
继续 前 一 个 例子 的 情况 ,但 我 们 现在 为 由 前 一 个 样 点 组 成 的 每 一 种 可 能 的 上 下 文 分 别 设计 一 
个 码 书 。 在 这 种 情况 下 ,只 有 后 种 可 能 的 上 下 文 。 基 于 公式 8.4.1) 中 给 出 的 短 阵 的 第 二 列 的 
条 件 概率 ,图 8.5 示 出 了 上 下 文 “b”( 即 前 一 个 符号 是 “bb") 的 码 书 设计 。 用 同样 的 步骤 ,可 为 另 
外 三 种 可 能 的 上 下 文 设计 码 书 。 对 四 种 上 下 文 “a”,“b”, “ce” 和 “d" 所 得 到 的 比特 率 是 1.5625， 
1.9375,1.9375 和 1.9875, 所 有 可 能 上 下 文 的 平均 比特 率 是 Rea = .7500。 另 一 方面 ,4 种 上 下 文 
的 条 件 精 分 别 是 :1.5016,1.8829,1.8829 和 1.8829, FH AEE. He, = 1.6922。 正 如 所 期 望 的 ， 
Hea < Roy < Hoa + 1。 存 这 个 特殊 例子 中 , Roi < Ri, 尽 管 这 可 能 不 是 一 般 情况 。 
如 果 信 源 是 马尔 可 夫 -1 过程 ,那么 信 源 的 炉 率 就 等 于 它 的 一 阶 条 件 粹 。 因 此 ,cl 
是 矢量 编码 所 能 达到 的 最 低 比 特 率 ,尽管 此 时 矢量 的 长 度 为 无 穷 大 。 
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EFF ， 
Be me BEG ME 码 字 长 度 
5 一 oaas an 2 
sb” 01938 — 0.0938 “our 3 
ae 0.0025, ooo 一 一 一 一 - Ey 4 
a 13 0067 — une 4 
ba” OROA 00639 中 rs bl 4 
bh" op 140625 1 322 “on” 4 
be” an 00 一 一 一 一 上 [3 ET 
“bd” 0.0268, 0.0433 一 1016 a ator 4 
“eb 00319 00361 ! a “or 5 
Se 00532 0.4819 一 we a so 5 
ve 00213 00313 ten OW 3 
da” D0433 0263 一 0 nono 5 
de aia 0023— a oom” 6 
R= 3.5003 FH, = 3.4629 
图 8.4 矢量 哈 夫 受 编 码 的 例子 ( 见 例 8.2) 
符号 概率 码 字 长 度 
osso —————— ~ ~ l oe i 
0.3125 ! 人 “ol” 2 
i o| 
sero” 0.1875 of 6250 “ool” 3 
“ere 0.1250 o 312s “v00” 3 


Rec = 19375 Hey = 1.8829 
图 8.5 条 件 哈 失 曙 编码 的 例子 ,此 时 条 件 上 下 文 为 "b"( 见 例 8.3) 


8.4.2 算术 编码 


哈 夫 曼 编码 的 缺点 是 它 不 能 接近 炉 界 限 ,除非 许多 样 点 一 起 编码 。 这 是 因为 每 个 样 点 (或 样 点 组 ) 
至 少 用 一 个 比特 。 因 此 ,即使 对 一 个 很 小 的 字母 表 ,比特 率 在 标量 编码 情况 下 不 可 能 低 于 1 比特 / 样 点 ， 
或 在 矢量 编码 情况 下 不 可 能 低 于 1 比 竺 /矢量 采样 。 避 免 这 种 问题 的 一 种 方法 是 把 可 变数 日 的 样 点 转 
换 成 可 变 长 的 码 字 。 这 种 方法 称 为 算术 编码 。 对 于 _ 般 的 信 导 , 它 可 以 比 险 夫 学 编码 更 按 近 丧 界 限 ， 

算术 编码 的 思想 是 用 0 到 1 的 线段 上 的 一 个 区 间 表 示 一 个 符号 序列 ,其 长 度 等 于 这 个 序 
列 的 概率 。 因 为 所 有 序列 概率 和 为 1, 所 以 对 应 于 所 有 可 能 序列 的 区 间 将 赴 满 整个 线段 。 - 
个 序列 的 编码 比特 实际 上 就 变 成 对 应 该 序 死 的 区 间 中 任何 一 点 的 二 进 制 表示 。 在 确定 区 间 及 
其 “ 进 制 表 示 前 不 需 等 到 整个 序列 出 现 , 我 们 可 以 从 起 于 第 一 个 符 导 确 定 的 初始 改 半 开始 , 然 
后 在 等 -个 新 的 符号 出 现 后 递归 地 划分 前 一 个 区 间 。 为 了 确定 区 间 , 区 间 的 上 下 限 以 二 进 制 
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形式 表示 。 每 当下 限 的 最 高 有 效 位 (MSB) 与 上 限 的 最 高 有 效 位 一 样 时 ,就 移出 这 个 比特 。 在 
信 源 序列 结 来 时 ,所 有 被 收集 的 比特 就 是 在 相应 于 该 计 列 的 区 间 中 一 个 中 间 点 的 二 进 制 表 示 。 
序列 出 现 的 可 能 性 越 大 ,区 间 就 越 长 ,确定 该 区 间 所 需要 的 比特 数 就 越 少 。 

令 ar(1=1,2,…, 二 ) 表 示 信 源 的 工 个 可 能 符号 ,符号 a 的 概率 为 p, 且 q = > ,pi 累计 
直到 第 i 个 符号 的 概率 。 令 d, h Mu, 分别 表示 第 n 步 区 间 的 长 度 、 下 限 和 上 限 ,Hi =0， 
zo = 1, do = 1。 依 据 收 到 的 信 源 序列 的 第 n 个 符号 ,如 果 符号 是 mw , 则 下 限 和 和 上限 用 下 式 计算 : 

d, = daž pa h= hat digi n = h +d, (8.4.3) 
令 P un, 的 二 进 制 表 未 分 别 是 (六 ,区 DARICO, BE OS. BAL bi Aa 是 相同 
的 ,那么 就 把 它们 移出 ,否则 保留 所 有 的 比特 。 然 后 继续 进行 算法 ,检验 下 一 个 符号 。 
例 8.4 图 8.6(a) 示 出 了 算术 编码 的 一 个 例子 。 信 源 字 母 表 直 “a" ,“b" 和 "ce"3 个 符号 组 成 ,概率 

TAA pa”) = U2, pb”) =1/4,p (“0”) = 1/4。 力 8.6(a]) 的 第 一 列 给 出 对 应 这 些 符号 的 区 

间 。 第 一 个 信 源 符号 是 “a", 它 对 应 第 一 列 中 第 一 个 区 间 。 上 下 限 分 列 是 1 =0= (000...) 

# u =12=(1000...). AA h 和 ui 的 MB 是 不 同 的 ,所 以 不 移出 比特 。 下 一 个 信 源 符 

TAD ,因此 ,就 在 第 二 列 中 取 第 二 个 区 间 。 由 公式 (8.4.3), 这 个 区 间 的 界 是 人 =1/4= 

(01000. ..) 和 u, =3/8 = (011000...)。 它 们 的 前 两 个 比特 是 相同 的 ,因此 在 编码 比特 流 中 就 

可 移出 “01”。 按 照 这 个 程序 ,可 确定 所 有 后 面 的 信 源 符号 的 编码 比特 。 

为 了 解 但 接收 到 的 比特 流 , 要 确定 对 应 接收 到 的 比特 的 区 间 的 上 下 限 。 如 果 访 PAPC TE A 
ARE ELA 5 — SR eS BE, ST AS. TR RE ELA 
例 8.4( 续 ) 解码 过 程 如 图 8.6(b) 所 示 。 第 一 个 收 到 的 比特 是 “0” ,都 以 0 作为 最 高 有 效 位 的 可 

能 的 下 限 和 上 限 是 |= (0000...) =0 $ u = (0111...)=(1000...)= 汪 。 从 图 8.6(a) 的 第 一 

列 可 知 ,这 个 区 间 对 应 “a" ,因此 ,可 输出 “a" 作 为 解码 符号 。 由 于 下 一 个 接收 的 比特 是 “1”， 

都 以 “01" 作 为 前 两 个 比特 的 可 能 的 下 限 和 上 限 是 1 = (0100...) = 村 和 u = (Ol...) = 

(4000...) = 去。 从 图 8.6(a) 的 第 二 列 可 知 ,区 间 人 了 本) 可 以 来 自 vab" 或 ac"。 加 此 ,在 这 

一 步 不 能 解码 出 符号 。 由 于 第 三 个 比特 是 “0" ,下限 和 上 限 是 1 = (010000...) = qh us 

(010111...) = (011000...) = 4. 从 图 8.6(a) 中 的 第 二 列 可 知 ,这 个 区 间 对 应 “ab”。 因 此 在 

这 一 步 我 们 可 以 输出 “b"。 继 续 这 个 过 程 ,就 可 解码 出 所 给 比特 流 的 所 有 符号 。 

上 面 描述 的 算术 编码 只 是 概念 上 的 , 它 假设 区 间 界 限 的 计算 是 无 限 精 确 的 。 当 处 理 较 多 
的 信 小 符号 时 ,对 应 输入 序列 的 区 间 傅 加 变 小 。 为 了 处 理 一 个 合理 长 度 的 序列 ,需要 一 个 具有 
极 高 精度 的 计算 机 来 确定 界限 值 。 幸 运 的 是 ,在 编码 和 解 但 过 程 中 不 需要 记录 绝对 的 界限 值 。 
一 旦 移出 下 限 和 上 限 的 公共 比特 ,就 可 把 前 面 确定 的 区 闻 重 新 定 标 为 长 度 1。 这 种 实现 称 为 
有 限 精 度 算术 编码 。 把 用 于 下 限 和 上 限 计算 的 小 数 算术 换 成 更 简单 的 整数 实现 也 已 经 开发 出 
来 。， 对 实际 的 编 解码 算法 的 全 面 描 述 超出 了 本 书 范围 ;读者 可 参考 Witten, Neal 和 Cleary 的 优 
秀 教程 [11]。 在 Sayood[9] 中 也 可 找到 哈 夫 曼 和 算术 编码 的 全 面 介绍 。 






























































个 和 1 之 间 的 数 了 的 二 进 制 表示 由 (8,5,1…, bg EH MIR f= DE a2 n 
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输入 符号 “a “b” van oot ve 











h 0=p000000) 1/4=40 100000) uao 19/64=(0100110)  19/64=(01001 10) 
4, 1=¢1000000) 38010000) er 人 om S116=(010 000) 39/128=(01001 1) 
: i ot 
SMES “or “or “our 
@ 
接收 到 的 比特 民间 解码 符号 
(0,1/2) ra 
(1/4172) 
[4,3/8) “be 
[1/4,5/16) ‘an 
“01001” 19/32,5/16) 
“Oo” 119/64,5/16) “o 
(by 


图 8.6 算术 编码 的 例子 ; (a) 对 信 产 序列 “abaca. . "进行 编码 。(b) 解 码 比 特 流 “010011. ..” 


等 术 编码 的 比特 率 由 下 式 限制 : 
HFN < Ro Hy(F IN + UN (8.4.4) 

其 中 , N 是 编码 序列 中 的 符号 数 而 HCF ) 是 序列 的 NAPA ERHI eR eA a 
码 整 个 长 为 w 的 序列 ,比特 率 将 受到 公式 (8.3.4) 的 限制 。 因 此 , 当 N 是 够 大 时 ,两 种 方法 都 可 
AG PREK. RTT FG RR BOG PG TT REE BEN N 的 序列 设计 和 存储 码 书 ,这 样 
做 的 复杂 度 随 w 呈 指 数 增 长 。 这 限制 了 实际 可 用 的 序列 长 度 。 用 算术 编码 则 不 需 预先 为 每 个 
可 能 的 信 源 序列 设计 码 - 革 。 而 是 每 当 所 确定 区 问 的 下 限 和 上 限 有 公共 最 高 有 效 位 时 ,就 可 连续 
地 得 到 比特 。 编 码 序列 的 长 度 可 以 与 信 源 的 长 度 一 样 长 。 因 此 ,实际 上 ,算术 编码 能 够 接近 入 率 。 

算术 编码 的 另 一 个 优点 是 可 简单 地 通过 更 新 符号 概率 表 来 适应 信 源 统计 特性 的 变化 。 通 
过 对 不 同 的 凸 下 文 用 不 同 的 概率 表 也 可 以 容易 地 实现 条 件 编码 。 对 于 哈 夫 曼 编 码 , 则 不 得 不 
基于 喝 新 的 概率 表 重 新 设计 码 片 ,或 对 不 同 的 条 件 陈述 设计 多 个 码 书 。 

由 于 较 高 的 编码 效率 和 易于 自 适应 ,只 爱 所 涉及 的 计算 是 可 接受 的 ,算术 编码 比 哈 夫 曙 编 
码 是 种 更 好 的 选择 。 
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8.5 标量 量化 


8.5.1 基本 原理 

最 基本 的 有 损 编码 方法 是 标量 量化 (SQ), 它 把 信 源 信号 中 的 每 个 样 点 量化 成 预先 设计 的 
重建 码 书 中 的 重建 值 之 一 。 一 般 米 讲 , 原 始 信 源 可 以 是 连续 的 或 离散 的 。 这 里 我 们 仪 考虑 第 
一 种 情况 , 即 原始 样 点 可 以 取 实 线 上 的 连续 支撑 区 如 内 的 任何 值 ， 这 个 支撑 区 被 分 成 许多 区 
RB, (1 =1,2,…, 工 ) ,使 得 在 同一 个 区 域 8, 内 的 值 映射 到 同一 个 重建 值 & 上 。 当 信 源 是 离散 
的 ,但 所 有 可 能 的 符号 可 沿 实 线 排列 时 ,我们 可 以 把 每 个 样 点 作为 一 个 假想 的 连续 信 源 的 输出 
来 对 待 ; 这 个 假想 信 源 在 一 个 连续 范围 内 只 产生 某 些 离散 值 。 用 这 种 方法 ,下 面 关 于 连续 信 源 
所 要 讨论 的 理论 和 技术 也 可 应 用 于 离散 信 源 。 

一 个 量化 器 是 用 重建 值 的 数目 LAIME b = 0,1,…, 二 ) 和 重建 值 g, (1 = 1,2,-+, LHR 
的 。 分 界 值 也 可 以 用 分 割 区 域 8, = Cbi b HERO, SO = [1,2,…, 了 i, 则 量化 函数 可 以 描述 为 ; 

Of =g WR ff€B,l€EL. (8.5.1) 

在 图 8.7 中 图 示 了 这 个 函数 。 在 数字 计算 机 中 ,重建 值 g& 可 以 简单 地 用 整数 索引 ! 确定 , 它 在 
固定 长 度 二 进 制 表示 中 需要 OR = [logy L 1 比特。 这 里 ,符号 [x 表示 x 的 上 限 整 数 ,也 就 是 等 于 
或 大 于 x 的 最 小 整数 。 
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(b) 
图 8.7 标 居 量化 器 的 图 示 :(a) 函 数 表示 ;(b) 线 分 割 表示 


O ”封闭 的 堪 界 的 使 用 是 任意 的 ,也 可 以 后 用 她 ;= (biblo 
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量化 器 的 失真 在 8.3.2 节 中 ,我 们 定义 了 当 丸 个 样 点 一 起 其 化 时 原始 信 源 与 苗 化 信 源 
之 间 的 失真 测度 。 在 标量 量化 器 情况 下 ,N=1, 公 式 (8.3.12) 所 给 出 的 失真 测度 变 成 : 


D, = Ed(F, QF) = fen EMA (8.5.2) 
= PBIB, (8.5.3) 

其 中 
Doo = f og fi Prades LE BaF (8.5.4) 


在 上 述 公式 中 ,天 表示 对 应 于 信 源 下 中 的 任何 样 点 的 随机 变量 ;p (7) ,AE BIR DERRE E 
BE PCB) = | PY ESEB WERT pSL/EB,) = pP REF EB, MFR 
件 概率 密度 函数 。 很 明显 , D, ,表示 在 区 域 8, 中 所 发 生 的 平均 失真 。 

Gd, Gg) = (fg)*, 上 上述 类 真 简化 为 均 方 误 类 ,这 等 于 量化 涡 差 -0C 大 ) 的 方差 ,由 
表示。 具 休 地 说 ， 


a = BHF- QF) Ph = >, P| Gel PFI B dg (8.5.5) 








8.5.2 均匀 量化 


最 简单 的 基 化 器 是 均匀 量化 器 , 它 在 相 邻 分 界 值 之 间 和 相 邻 重建 信之 间 具 有 相等 的 距离: 

b= be = Br - Ba eG (8.5.6) 

其 中 ,7 称 为 其 化 步 长 。 这 种 量化 器 只 适用 于 有 限 动态 范围 RU E ff RRD 

和 最 大 信 , 则 8 = -fs。 量 化 器 是 由 量化 电 平 数 上 或 比特 率 R 或 量化 步 长 g 确定 的 。 这 
些 参数 由 9 = B1L = 82-8 开 相 联 系 。 分 界 值 和 重建 值 由 下 式 给 出 ; 





b= sgtfrns gr= (T-l)xg+ q+ fr (8.5.7) 
量化 函数 可 以 用 封闭 形式 描述 : 
ay) =| S| (8.5.8) 


其 中 ,xj 表示 x 的 下 限 整 数 ,也 就 是 等 于 或 小 于 x 的 最 大 整数 ( 见 图 8.8)。 
如 果 信 和 源 是 均匀 分 布 的 ,也 就 是 说 ,如 果 : 





UB fE (Fanfan) 
ptf) = k A f (8.5.9) 
那么 把 公式 8.5.7) 和 (8.5.9) 代 人 公式 (8.5.5) 得 : 
EE or (8.5.10) 


其 中 of = 好 112 是 原始 信号 了 的 方差 。 量 化 器 的 SNR 是 : 
SNR = 1Ologe Z = (2Wlogp2)R = 6.02R(dB) (8.5.11) 
因此 . 蛮 均 匀 量 化 器 中 每 增加 一 个 比特 就 会 对 均匀 信 源 的 SNR 产生 6.02 dB 的 增益 。 这 是 量 
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化 理论 的 一 个 著名 结果 。 











图 8.8 均匀 量化 器 


8.5.3 最 佳 标量 量化 器 


到 日 前 为 止 所 介绍 的 均匀 量化 器 是 易于 实 项 的 ,但 对 于 表示 信 源 可 能 不 是 最 有 效 的 。 在 
本 节 中 ,我 们 考察 如 何 设计 最 佳 标量 量化 器 ,以 便 在 固定 比特 率 ,并 且 信 源 概 率 密度 函数 为 
P(L 站 的 条 件 下 使 失真 达到 最 小 。 

最 小 均 方 误差 {MMSE) 量 化 器 。 在 MMSE 量化 器 中 ,选择 b Me, 使 得 对 于 给 定 的 ,的 方 
误差 a 最 小 化 。 根 据 变 分 法 ,必要 条 件 是 9o?13&, =0 Aldo’ lag, =0,Y 1。 由 公式 (8.5.5): 


A 








a - 6 PC br) — (by = gm) p( bi) = 0 


2 b 
经 -aah ge ARGE =- f 20- gp df = 0 
简化 上 述 公式 得 ; 
B+ Bin 
by ee (8.5.12) 
=E\F IF EB} =| MUI SE Ba (8.5.13) 


条 件 平均 EIFIF CB ERB, 的 质心 。 

公式 (8.5.12 及 8.5.13) 的 结果 说 明 ,最 佳 分 界 值 处 于 两 个 最 佳 重建 值 的 中 点 ,而 最 佳 重建 
值 处 于 分 界 信之 间 区 域 的 质心。 注意 ,要 求 b = (g + g4,1)12 等 价 于 把 任何 FE (gi, 21, ft 
化 成 OIR SEN g 比 g,,, 更 近 )。 更 一 般 的 叙述 是 ,任何 值 /被 量化 为 最 接近 /的 重建 值 。 
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因此 ,公式 (8.5.12) 可 等 价 地 写成 : 


B= {fidlf ge) < df ie) ,yt « it (8.5.14) 
公式 (8.5.12) 或 公式 (8.5.14) 所 给 出 的 条 件 称 为 最 邻近 条 件 。 另 一 方面 ,公式 (8.5.13) 称 为 质 


心 条 件 。 

可 以 证 明 若 不 用 均 方 误 益 (MSE ) 测 度 而 用 失真 测度 ,公式 (8.5.14) 所 给 出 的 最 邻近 条 件 
仍然 成 立 。 然 而 ,公式 (8.5.13) 中 的 质心 条 件 必须 改 成 : 

a = argmin, | Eldi (F, g) 1 F EBH (8.5.15) 
其 中 ,argmin, | E( g)| ern i PR EC) 最 小 化 的 参量 g， 公 式 (8.5.15) 中 所 定义 的 g, PRB, 
的 广义 质心 , 它 的 解 取 决 十 di(f,g) 的 定义 。 例 如 , 苦 fe) = If- g1, 则 gi BB, 的 中 间 值 
《见习 题 8.12)。 

MMSE 僵化 器 的 “个 重要 性 质 是 它 使 下 同 分 割 区 域 中 的 生化 误 凑 相 等 ,也 就 是 说 : 

P(B) D, = D, WlEL (8.5.16) 
EAH He BESTE BY RLS, 4] RITA 8.83 

均匀 信 源 的 MMSE 量化 器 ”把 公式 (8.5.9) 中 的 均匀 分 布 代 入 公式 (8.5.12 及 8.5.13) 将 
得 到 公式 (8.5.7) 中 所 给 出 的 解 。 央 此 ,如 所 期 望 的 ,均匀 信 源 的 MMSE 生化 器 是 均匀 的 。 

非 均匀 信 源 的 MMSE 量化 器 对 于 一 个 任意 的 概率 密度 函数 p) AR (8.5.12 及 
8.5.13) 中 的 条 件 不 总 具有 封闭 形式 的 解 。 必 须 用 数值 程序 来 确定 b 和 g, 的 最 佳 集 。 参 考 文 
HRES NAA 4.3 给 出 了 具有 单位 方 益 和 零 均 值 的 均匀 、 沿 斯 \ 拉 普 拉 斯 和 伽 马 信 源 的 最 传 吕 
和 和 gi。 可 以 证 明 ( 见 习题 8.10) 对 于 一 个 具有 任意 均值 wy 和 方差 a? 的 信 源 ,最 佳 的 b Allg, 可 
由 下 不 获得 : 














b = of tty Bi = Igi + By (8.5.17) 

韭 均匀 信 源 的 MMSE 量化 器 一 般 情 况 下 是 非 均匀 ,也 就 是 说 ,分 割 区域 在 长 度 上 是 不 等 的 。 

在 这 种 情况 下 ,量化 值 不 能 像 均 匀 量 化 器 那样 用 . -个 封闭 形式 的 公式 确定 。- - 般 地 ,必须 把 给 定 

的 值 / 与 所 有 分 界 相 比较 , 让 到 找到 b f< & 区 域 。 或 考 说 ,可 以 寻找 最 接近 的 局。 连续 
搜索 需 此 高 达 工 次 的 比较 。 用 二 又 树 搜索 程序 , 比较 的 次 数 林 以 减少 到 [log Lle 

MMSE 量化 器 的 渐进 性 能 ”对 于 具有 任意 三 率 密度 函数 的 信 源 ,用 最 邻近 条 件 和 质心 条 

件 , 要 导出 量化 器 参数 bg 以 及 相应 的 量化 误 养 o; 的 封闭 形式 的 解 是 困难 的 。 然 而 , 当 比 

特 率 R 和 随 之 而 来 的 量化 级 =2* 非常 高 时 ,可 导出 用 概率 密度 函数 表示 的 MMSE 量化 器 封 

闭 形式 的 解 。 有 关 的 量化 梁 差 可 以 表示 为 : 
































a = eoa (8.5.18) 

其 中 
Gi 5( * a yap)” 19 
= pl) pa, (8.5.19) 





其 中 pf) = op (ao) 表 所 一 个 上 有 单位 方差 的 归 一 化 信 源 的 概率 密度 晒 数 。 公式 (8.5.18) 称 
为 祭 昌 量化 器 性 能 的 高 率 近似 。 把 上 述 公式 与 公式 (8.5.10) 比 较 可 以 看 出 ,对 于 均匀 信 源 
= 1， 对 于 非 均 勾 仿 源 一 般 e? > 1。 特 别 地 ,对 于 高 斯 信 源 ,ez =2.71。 同 想 iid ELARA 


的 失真 府 界 限 旦 由 公式 (8.3,20) 给 出 的 。 央 1 ,最 好 的 慰 量 量化 器 仍 与 该 界限 相差 十 g， es 
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0.7191 比特 / 样 点 。 对 于 其 他 几 种 信 源 的 @ 什 , 见 [5, 表 4.8]。 为 了 接近 于 该 界限 ,必须 多 个 样 
点 一 起 量化 。 对 量化 索引 用 可 变 长 编码 可 减 小 因子 e ;这 将 在 8.6.4 节 中 进一步 讨论 。 

基于 训练 数据 设计 最 佳 标量 量化 器 的 劳 埃 德 { Lloydj 算 法 ” 当 和 欲 量化 信号 的 分 布 未 知 时 ， 
基 化 器 可 以 基于 含有 欲 量化 的 代表 性 样 点 的 训练 集 进行 设计 。 基 于 训练 数据 设计 量化 器 的 一 
个 流行 的 方法 是 劳 埃 德 算法 [7,4]。 如 网 8.9 所 示 , 该 算法 送 代 地 更 新 重建 值 和 分 界 值 。 在 每 
次 迭代 中 ,首先 基于 质心 条 件 重新 计算 重建 值 ,然后 基于 最 邻近 条 件 分 荐 所 有 训练 样 点 。 在 广 
义 质 心 和 失真 计算 中 所 需要 的 统计 期 望 用 样 点 的 平均 近似 。 在 MSE 准则 下 ,一 个 分 割 的 重建 
值 简单 地 取 为 属于 该 分 割 区 域 的 训练 样 点 的 平均 值 ,而 分 界 值 简单 地 取 为 两 个 相 邻 重建 值 的 
平均 。 在 图 中 , K 表示 B, 中 的 样 点 数 。 
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图 8.9 用 训练 数据 设计 最 佳 标量 量化 器 的 劳 埃 德 算法 
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8.6 矢量 量化 
8.6.1 基本 原理 


我 们 可 以 把 一 次 量化 一 个 样 点 换 成 一 次 量化 一 组 N 个 样 点 。 每 个 样 点 组 称 为 一 个 矢量 ， 
而 这 个 一 次 量化 一 个 矢量 的 过 称 称 为 矢量 量化 (VYQ)。 在 图 像 或 视频 情况 下 ,一 个 矢量 道 常 对 
应 -- 个 像素 块 。 采 用 YQ 的 动机 主要 源 于 这 种 观察 , 即 在 典型 的 岗 像 或 视频 帧 中 , 块 中 的 样 点 
是 相互 联系 的 ,使 得 一 些 方块 模式 比 其 他 的 更 为 相似 。VQ 的 任务 从 本 质 上 说 是 要 找到 工 个 
基 首 用 的 模式 ,并 且 用 其 中 -个 与 原始 模式 最 相似 的 代表 模式 来 代替 任何 给 定 的 块 。 

[ 述 讨论 假设 一 个 失 量 对 应 于 一 组 样 点 值 。 在 每 个 样 点 由 多 个 值 描述 的 信 源 中 ,每 个 样 
点 本 身 就 叮 以 用 … 个 矢 世 量化 束 进 行 量化 。 例 如 ,彩色 图 像 中 的 每 个 样 点 包含 二 个 分 量 。 为 
了 在 一 个 采用 8 比特 图 形 卡 的 计算 机 监视 器 上 显示 24 比特 彩色 图 像 , 我 们 必须 找到 256 种 彩 
色 使 它们 能 最 好 地 表示 所 有 吉 能 的 2" = 1 600 万 种 彩色 

把 每 个 可 能 的 N 维 矢量 了 看 做 w 维 宗 间 的 一 点 ;VQ 问题 就 是 要 把 N 维 空间 分 割 成 个 
区 域 8, ,并 由 具有 代表 性 的 点 g 表示 区 域 8, 中 所 有 的 点 。 图 8.10 RRT N = 2 情况 下 的 这 
RR. RATE, 为 分 割 区 城 ,gi 为 重建 和 撩 景 或 码 宁 。 包 含 所 有 碍 字 C= lg LCL] ORR 
为 码 BT 。 量 化 函数 可 以 描述 为 : 




















Q = go {eB (8.6.1) 
如 果 用 固定 长 度 的 二 进 制 编码 把 重建 得 字 转 成 二 进 制 比特 ,那么 具有 N 个 样 点 的 每 一 组 需要 
[log | 个 比特 , 且 比 特 率 ( 比 特 / 样 点 ) 是 ， 





= Fpl log £1 (8.6.2) 








8.10 矢量 维 W=2 的 矢量 量化 图 示 。 每 个 分 割 
区 域内 的 空心 圆圈 表示 该 区 域 的 重 娃 码 字 





和 ”注意 ,为 了 用 一 进 制 比 特 表 示 虹 化 信号 ,必须 把 每 个 重建 码 宁 映射 为 一 进 制 码 字 、 在 木 节 中 的 “ 码 字 " 和 "* 码 Pe 
HEL TAG 88.3.1 节 和 8.4 节 中 它们 昆 指 二 进 制 码 字 得 书 - 
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比较 公式 (8.6.1) 与 公式 (8.5.1) 以 及 图 8.10 与 图 8.7(b), 可 以 看 出 标量 量化 器 只 是 矢量 
量化 器 的 一 种 特殊 情况 ,在 者 里 ,f 是 标量 ,而 8; 是 线段 。 一 般 弛 ,与 标量 情况 一 样 ,分 割 区 域 
B, 不 能 简单 地 由 少量 判定 值 描述 。 

为 了 计算 矢量 量化 器 引信 的 量化 误差 , 令 焉 和 OCF RAR REAR LER, H 
Pn (从 表示 下 中 各 分 景 的 联合 概率 密度 函数 。 应 用 8.3.2 节 中 的 表示 法 ,公式 (8.6.1) 所 描述 
的 矢量 量化 器 的 条 件 概率 gn (QI DE: 























fe Big = 多 








wend bem (8.6.3) 

在 这 种 情况 下 ,公式 (8.3.12) 中 的 失真 准则 简化 为: 
D, = Bld FOF = | prlde, (af (8.6.4) 
= 六 pe)D， (8.6.5) 


其 中 
Dar = Elda (F, Q(F))1F EB} = Fic Put | FEB )dy(f.g df (8.6.6) 
最 邻近 量化 器 和 VQ 的 复杂 度 “一般 地 ,一 个 矢量 重 化 器 由 码 字 p 和 分 割 区 域 B, 确定 。 
用 最 邻近 量化 器 ,对 于 任何 输入 矢量 通过 将 与 所 有 码 字 进 行 比较 ,并 且 在 距离 测度 d,(f,g,) 


条 件 下 寻找 与 它 最 接近 的 一 个 来 确定 量化 矢量 。 换 句 话说 ,分 割 区 域 通过 下 式 由 码 字 隐 含 地 
WE: 








B, = IEE RN: daif) = dy(fe), VU « dl (8.6.7) 
正如 将 在 8.6.3 节 中 说 明 的 ,这 是 最 小 化 平均 量化 误差 的 必要 条 件 。 本 质 上 ,实际 中 所 用 的 所 
有 量化 器 都 属于 这 一 类 ;图 8.11 说 明了 最 邻近 量化 器 的 操作 。 





























码 书 
C= (Bi Bo... Bil 
输入 Re 量化 
矢量 ate >min | 人 > 和 














图 8.11 最 邻近 量化 器 的 操作 


用 最 邻近 量化 器 ,对 于 每 一 个 输入 矢量 ,必须 计算 这 个 矢 屋 与 所 有 上 个 重建 码 字 之 间 的 
失真 。 用 平方 误差 测度 ， 





dy(f.) = ISK -gy (8.6.8) 
每 次 计算 都 沉 要 N 次 运算 (一 个 运算 包括 一 次 减法 ,一 次 乘法 和 一 次 加 法 )。 因 此 ,量化 一 个 
矢量 所 禹 要 的 总 运算 次 数 为 NL。 从 公式 (8.6.2) 可知, L= 2”"。 因 此 ,运算 次 数 是 N", Ñ 
存储 需求 而 言 ,每 个 码 字 需 要 AN 个 基本 存储 单元 ,而 所 有 工 个 码 字 需 要 NM = NINER 
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元 。 因 此 ,VQ 的 复杂 庶 和 人 存储 需求 贿 矢 量 维 数 呈 指 数 增长 。 问 起 定理 8.4 告诉 我 们 ,一 般 只 
AH 浆 赵 于 无 穷 叶 才 可 达到 信 源 的 RD 界限 。 一 般 地 说 , w 越 大 , 编码 器 的 效率 就 越 高 。 然 
T AREER A 呈 措 数 增长 限制 了 实际 可 以 使 用 的 矢 虹 维 数 。 考 虑 视频 帧 的 昌 化 ,每 N 个 像 
素 的 块 用 长 度 为 工 的 码 书 姑 化 。 假 设 帧 率 是 A HEKAY N, xN, ,那么 每 秒 的 运算 次 数 将 
ENN IN) NA2 =JNN,2W， 对 于 BT.601 视频 的 了 分 县 ,A = 30. N, = 720, N, = 480, 而 
4x4 大 小 的 矢量 和 1 比特 / 样 点 的 比特 率 需 要 每 秒 6.8 严 + 11 的 运算 次 数 ! 对 于 图 像 和 视频 编 
BS, N 通常 限制 于 4x4 或 以 下 。 

为 了 降低 复杂 度 ,类 似 于 SQ 情况 的 一 义 本 搜索 ,如 果 每 个 分 割 区 上 域 尽 一 个 多 面体 , 则 不 
需要 进行 穷尽 搜索 。 在 这 种 情况 下 ,不 同 的 分 割 区 域 大 用 横断 的 吉平 面 定义 的 。 可 以 将 给 定 
的 失 基 与 一 个 超 半 面 进 行 比较 ,每 次 去 掉 平 面 一 个 边 上 的 码 字 。 这 样 , 呆 以 把 比较 的 次 数 缩 磊 
人 刘 近 小 于 工 , 位 可 能 不 会 低 到 log L, RIEG BAA RRRS TUE PRR RR, E 
并 发 了 各 种 快速 VQ 方案 ,这 些 方案 对 得 书 结构 加 上 了 一 定 的 约束 ,从 而 减少 了 运算 次 数 。 
Gersho 利 Gray[4] 提 供 了 各 种 VO 技术 的 广泛 内 容 。 


8.6.2 点 阵 矢 量 量 化 器 


如 在 8.5.2 节 所 学 习 过 的 ,最 简单 的 标量 时 化 器 足 均 匀 量 化 器 ;其 中 ,，: 定 范围 的 实 线 被 
分 割 成 相等 长 度 的 量化 箱 (bin)。 在 VQ 情况 下 类 似 的 均匀 量化 器 是 点 阵 量化 器 ;其 中 ,所 有 分 
割 区 域 都 具有 相间 的 形状 和 大 小 ,而 H 实 际 上 都 是 基本 区 域 的 移 位 形式 ,基本 区 域 是 点 阵 的 沃 
罗 纳 (Yornoi) 区 域 。 几 8.12 示 出 了 两 种 点 阵 量 化 器 ,分 别 采用 和 矩形 和 六 边 形 点 阵 。 在 第 3 章 
中 ,我 们 介绍 了 在 多 维 空间 上 均匀 采样 的 点 阵 概 念 。 这 里 我 们 看 到 也 可 以 用 点 阵 来 定义 多 维 
FREN 上 的 均匀 大 化 器 。 























h h 
A 4 
o o o o o o 
o o o o o o 
o o o o o o 
fen 
eI fi 
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(a) {b} 


8.12 使 用 (a) 短 形 和 (b) 怀 边 形 点 阵 的 点 阵 基 化 器 。 有 阴影 区 域 表 示 
RBMK: dan OMA HEAT EA KERZ KIRARA 


WHR N 维 实 空间 RR* 上 的 点 阵 入 是 由 一 个 基本 矢量 集 w Cn = 1,2,…, N), ROE 
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阵 [V1= [myw] 定 义 的 。 点 阵 中 的 点 是 那些 可 以 表示 为 下 式 的 矢量 : 
= Syma. = [V]m, (8.6.9) 


其 中 ,mE 是 整数 或 m,€ 2* 是 - AN 维 整数 矢量 。 通 常 ,一 个 码 字 g 由 它 所 对 应 的 m, 
索引 和 的 藕 罗 纳 愉 域 ?7 尾 其 中 所 有 的 点 更 接近 原点 而 不 是 任何 其 他 非 零 阵 点 的 区 域 。 对 于 
一 个 点 阵 量化 器 , 码 节 由 点 阵 中 的 所 有 点 组 成 ,或 是 由 点 阵 的 陪 集中 的 所 有 点 组 成 ,点 阵 的 陪 
集 是 点 阵 的 一 个 移 位 形式 。 这 样 的 景 化 器 有 无 穷 多 的 码 字 。 实 际 上 ,更 常用 的 是 点 阵 或 它 的 
陪 集 的 截断 形式 , 它 仅 取 R 怀 "上 的 某 个 支撑 区 内 的 样 点 。 

对 于 一 个 RR* 中 的 某 个 有 限 区 域 上 的 均匀 分 布 信 源 ,如 果 我 们 假设 所 有 的 分 割 区 域 恰好 
填 满 支撑 区 他 ,那么 所 有 分 割 区 域 可 能 是 相等 的 , 且 每 个 区 域 的 失真 与 沃 罗 纳 区 域 上 的 失真 相 
司 。 同 想 沃 罗 纳 区 域 V 的 容积 等 本 Idet[V]1。 这 样 , 条 件 概 率 密度 函数 p (£1fEV) = UVIdet[V]i。 
此 ,平均 量化 误差 是 : 















































D, = Ds = TENT, dy(f,0) df. (8.6.10) 
根据 MSE 准则 ,我 们 有 : 
上 2 
,= road wily Welter. (8.6.11) 
几 种 高 维 点 阵 的 D, 值 已 经 由 Conway 和 Sloane[2] 制 成 了 表 。 
值得 注意 的 是 ,即使 对 十 iid. 信和 源 ,VQ 也 可 以 改善 50 的 编码 效率 。 这 是 因为 VQ 人 允许 














分 着 区 域 填 满 空间 时 有 更 多 的 灵活 性 。 考 虑 图 8.12 所 给 的 两 个 例子 。 在 每 一 种 情况 下 ,用 
攻 域 的 中 心 ( 码 字 ) 表 示 区 域 中 的 点 的 最 大 失真 是 da= 1, 从 而 两 个 量化 器 将 产生 相同 的 最 大 
失真。 但 为 了 填 满 相同 的 二 维 空间 ,需要 较 少 的 六 边 形 , 因 为 六 边 形 点 阵 的 沃 罗 纳 区 域 大 于 算 
形 点 阵 的 沃 多 纳 区 域 。 特 别 地 ,在 这 个 例子 中 矩形 和 六 边 形 点 阵 的 沃 罗 纳 区 域 的 面积 分 别 是 
2aw 和 2.59 必 。 在 图 中 所 考虑 的 整个 支撑 区 中 , 抢 形 点 阵 具 有 36 个 以 上 的 分 割 区 域 ,而 六 
边 形 点 阵 仪 有 30 个 区 域 23。 目 前 ,矩形 点 阵 量 化 器 也 可 以 通过 在 每 一 维 应 用 一 个 均匀 标量 量 
化 器 来 实现 。 这 意味 着 当 两 个 样 点 相互 独立 是 都 是 均匀 分 布 时 ,用 . -个 设计 得 很 好 的 矢量 量 
器 把 它们 作为 矢量 一 起 量化 可 以 减少 比特 率 。 

点 阵 量化 器 的 实现 ”如 前 面 所 述 ,对 于 一 个 任意 的 最 邻近 量化 器 ,量化 一 个 给 定 的 矢量 了 
包括 一 个 穷尽 搜索 。 用 点 阵 生化 器 就 没 这 个 必要 。 在 这 种 情况 下 ,我们 可 以 首先 用 下 式 确 定 
一 个 量化 矢量 的 实 索引 矢量 : 



























































m= [V]- (8.6.12) 
然后 ,可 以 计算 与 邻接 四 的 所 有 整数 索引 矢量 相关 的 失真 . 取 m 的 每 个 分 量 的 下 限 整 数 和 上 
限 整 数 ,并 确定 哪个 给 出 最 小 失真 。 为 了 进一步 降低 复杂 度 , 也 可 以 简单 地 把 m 四 舍 五 人 到 
最 近 的 整数 矢量 。 滨 者 可 参阅 参考 文献 [2] 以 使 获得 点 阵 编码 算法 和 性 能 的 更 详细 的 讨论 。 





由 ”一 般 情况 下 这 上古 不 成 立 的 , 除 匡 使 用 超 冯 方 笨 点 阵 ， 伍 当 工 很 大 时 ， 支撑 区 边界 上 的 分 割 区 域 数 很 小 ,从 而 那些 区 
域 的 影响 可 以 忽略 。 
© WARS 3 章 我 们 知道 六 边 形 点 阵 在 禾 闭 空间 时 更 有 效 。 
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8.6.3 最 佳 矢 量 最 化 器 

尽管 点 阵 基 化 器 易于 实现 ,但 当 信 源 不 足 均匀 分 布 时 ,它们 串 能 不 是 最 有 效 的 。 对 于 一 个 
给 定 的 w 维 矢量 和 信 源 概率 密度 函数 mw (人 ,希望 设计 一 种 最 佳 量化 器 ,对 于 给 定 的 比特 率 R 
或 (等 价 地 ) 码 书 人 小 工 ,使 给 定 的 失真 准则 最 小 化 。 理 想 情况 下 ,应 该 同时 确定 码 字 g 和 分 
KIRE, 以 使 平均 失真 D, 最 小 。 然 而 ,最 优化 解难 以 找到 。 蔡 换 的 方法 是 ,可 以 分 为 两 个 阶 
段 进行 。 首 先 ,对 于 给 定 的 码 字 色 (1E5), 分 割 区 域 81(1E5) 应 该 使 所 有 区 域 上 的 平均 失真 
D, 为 最 小 。 其 次 ,对 于 给 定 的 分 割 区 域 81, 但 字 g 的 选择 应 该 使 8; 内 的 失真 D; ,为 最 小 。 

对 于 第 一 个 问题 ,从 公式 (8.6.4) 容 易 看 出 :如 果 QCf) 的 选择 使 dy (f, OCD) 对 于 任何 
都 为 最 小 , 则 D, 将 被 最 小 化 。 也 就 是 说 : 

















QD = g = argming rec [dy (f,g'1)1 (8.6.13) 
换 句 话说 ,f 应 该 量化 到 最 接近 它 的 公 字 。 这 种 分 配 等 价 于 按照 下 式 建立 分 审 区 域 5,: 
Bi = lfidalf,g) < dy(he Wl æ l (8.6.14) 


我 们 称 公 式 (8.6.13) 或 公式 (8.6.14) 为 最 邻近 条 件 . 
现在 ,我 们 考虑 第 二 个 问题 。 很 明显 ,应 该 选择 g 使 得 公式 (8.6.6) 中 的 D,., 最 小 化 ,也 就 
是 说 : 
B= argmin,E!d,(F gp) | F € Bi} (8.6.15) 
我 们 称 这 个 g HB, 的 广义 质心 ,并 且 公 式 (8.6.15) 是 质心 条 件 。 
当 失 真 测 度 是 MSE 时 ， 
1 


Bile) = HEN F -gl IF EB] = hj, Ir-el’p(ire Bae (8.6.16) 
使 DAU g 必须 满足 9D,.1/3g=0。 由 此 得 到 : 
& = [ef PE Baf = FIF IF EB. (8.6.17) 
wet 


也 就 是 说 ,g FEB, 的 条 件 平均 或 质 它 公式 (8.6.14 及 8.6.15) 定 义 个 对 于 任意 失真 测度 
的 最 优 矢量 量化 器 ,而 公式 (8.6.14) 和 (8.6.17) 一 起 定义 了 一 个 MMSE 矢量 量化 器 。 

注意 ,最 邻近 条 件 和 质心 条 件 是 最 小 化 D, 的 必要 而 非 充 分 条 件 。 满 足 两 个 条 件 的 量化 
器 仍 可 能 没 达 到 D, 的 总 体 最 小 化 。 图 8.13 示 出 了 两 个 用 于 均匀 分 布 信号 的 二 维 矢 量 量化 
嚣 。 很 容易 证 明 每 个 撤 化 器 都 满足 这 两 个 条 件 ,然而 很 明显 在 边 的 基 化 器 将 具有 较 低 的 MSE。 
由 此 ,左边 的 量化 器 仅 为 局 部 最 优 。 

设计 最 佳 矢量 量化 器 的 广义 劳 挨 德 算法 ”对 于 一 个 任意 的 信 源 ,难以 导出 gB (EL) 
的 封闭 形式 的 解 。 由 广义 劳 埃 德 算法 可 以 获得 局 部 最 优 解 。 与 SQ 的 劳 埃 德 算法 一 样 ,VQ 
的 广义 劳 挨 德 算法 基于 训练 数据 迭代 地 确定 最 佳 的 g 和 8,。 图 8.14 给 出 这 个 等 法 的 流程 
表 . 将 这 个 图 与 图 8.9 比较 ,很 容易 看 出 这 两 个 算法 的 相似 性 。 




















人 ”按照 首先 把 劳 揪 德 算法 推广 到 矢 景 基 化 的 作者 而 命名 ,这 个 算法 也 称 为 LBG 算法 [6]。 同 样 的 算法 也 己 经 应 用 于 
把 数据 点 白 动 聚 集成 几 类 的 模式 识别 中 ;在 邦 早 , 称 它 为 平均 算法 。 
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> fi 





图 83.13 满足 最 邻近 和 质心 条 件 的 两 个 矢量 量 
t 冲 ,而 石 边 的 量化 器 具有 较 低 的 失真 





> fi 





给 定 训练 集中 的 采样 矢 
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B= {hp dy g) & dy (fe BP. WE # Ibe Lk 











Y 
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图 8.14 ”用 训练 数据 设计 最 佳 矢量 量化 器 的 广义 劳 埃 德 算法 
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例 8.5 【矢量 量化 器 设计 ) 

图 8.15 给 出 在 MSE 准则 下 使 用 广义 劳 埃 德 算法 设计 量化 器 的 一 个 例子 ， 在 每 次 选 代 
中 ,我 们 首先 通过 对 区 域内 的 所 有 训练 矢量 取 平均 来 对 每 个 以 前 所 确定 的 分 割 区 域 重 新 
计算 质心 矢量 (用 加 表示 ), 然 后 报 据 训练 矢量 到 更 新 的 质心 矢量 的 距离 重新 分 割 (用 撒 图 
表示 ) 所 有 的 训练 失 量 。 图 中 示 出 了 前 三 次 选 代 的 结果 。 因 为 第 三 次 移 代 后 的 分 割 仍 与 
第 二 次 移民 后 的 相同 ,所 以 第 四 次 适 代 将 不 会 政变 码 字 或 分 割 区 域 。 因 此 ,第 三 次 选 代 后 
所 给 出 的 结果 是 最 终 解 。 

初始 解 AUS 





A 
>f 











RB (最 终 解 } 
h 


他 x 
A 
a fl ~ i 


图 8.15 用 广义 劳 埃 德 算法 设计 欠 基 量化 器 的 -个 例 上 。 x 表示 训练 矢量 ,O 表示 码 字 ( 见 例 8.5) 


由 广义 劳 埃 德 算法 得 到 的 量化 器 取决 于 初始 码 字 。 当 初始 码 宁 选择 得 木 合适 时 ,算法 可 
能 就 会 收敛 于 局 部 最 小 而 远离 全 局 最 小 。 渴 择 初始 码 宇 的 一 个 简单 且 相 当 有 效 的 方法 号 采用 
在 每 维 应 用 均 勾 标 量 县 化 所 得 到 的 码 宁 。 关 于 VQ 设计 算法 广泛 的 讨论 ,包括 初始 码 字 的 选 
择 见 参考 文献 [4]。 
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8.6.4 MARR EBL IRI 


到 目前 为 止 ,我 们 假设 长 为 的 码 书 中 的 每 个 码 字 取 [ logs LTP LR RB, AH 
字 通 常 以 不 同 的 概率 出 现 , 所 以 可 以 用 哈 大 芝 编 码 或 别 的 可 变 长 编码 技术 来 进 … 步 降低 比特 
A TE 8.5.3 WA 8.6.3 节 所 描述 的 最 佳 量化 器 的 设计 方法 中 ,我 们 这 图 通过 假设 RG 
有 的 公式 (8.6.2) 关 系 ,使 在 给 定 比 畦 率 玉 或 码 书 长 度 志 时 失真 最 小 。 如 果 用 可 变 长 编码 技术 
对 量化 后 的 矢量 进行 编码 ,就 g PB, 而 言 所 得 的 解 不 肯 是 最 佳 的 。 采 用 约束 最 佳 划 化 器 
设计 ,我 们 以 码 率 约束 为 条 件 使 失真 最 小 化 ,这 里 假设 码 率 等 于 生化 信 源 的 丧 。 如 果 我 们 一 次 
编码 一 个 码 字 , 那 么 比特 率 册 下 式 约束 : 
Ry =- NPCS lo PB) (8.6.18) 


因为 码 字 g 的 概率 是 P(5,)。 给 定期 望 的 比特 率 R 和 矢量 的 维 数 W, 最 优化 问题 就 是 在 下 式 
的 约束 下 使 D, 为 最 小 
































一 之 P(B, log P(B:) < RN (8.6.19) 
te, 
FARE BH RTIRA PAS AA OE LR] A OR A 
minimizeJ(A) = D, + 4(- z P(B; Jog P(B;) — NR) (8.6.20) 
TE. 








其 中 ,4 的 选择 必须 满足 公式 (8.6.19) 中 的 约束 。 对 于 每 个 周 定 的 2, 用 广义 劳 埃 德 算法 ,将 失 
真 准则 从 D, 改变 为 公式 (8.6.20), 就 可 以 得 到 g AB, 的 解 。 然 后 可 以 用 公式 (8.6.18) 计 算 
这 个 解 所 寡 要 的 比特 率 。 实 际 上 ,不 同 2 值得 到 的 解 对 于 不 同比 特 率 是 最 优 的 。 

在 炉 约 束 下 , 当 工 很 大 时 , 非 均 匀 信 源 的 最 佳 量化 器 趋 于 均匀 。 这 样 ,每 个 分 割 区 域 中 的 
最 大 失真 是 相似 的 。 然 而 ,因为 对 应 于 较 高 概率 密度 函数 区 域 的 码 字 比 其 他 码 字 出 现 的 可 能 
性 更 大 ,所 以 将 用 较 短 的 码 字 编 码 。 ， 

注意 ,上 述 讨论 同 样 适用 于 标量 量化 。 加 想 任 何 非 炉 约 束 的 MMSE Be BE RS 
可 以 在 高 码 率 情况 下 写成 公式 (8.5.18) 的 形式 。 应 用 炉 编 码 的 净 效 果 是 减 小 因子 e+。 对 于 高 
斯 信 源 ,用 精 约 束 MMSF 量化 器 和 标量 无 损 编码 ,e? 可 以 从 2.71 降 到 1.42, 这 对 于 相同 的 失真 
相当 于 节省 0.467 比特 / 样 点 。 与 i.i.d. 高 斯 信 源 的 RD 界限 比较 ,这 表示 与 该 界限 仪 差 0.255 
比特 / 样 点 [5,4.6.2 节 ]。 





























8.7 小 结 


编码 系统 的 一 般 结构 {8.1 节 } 


© 编码 系统 通常 由 三 部 分 组 成 (图 8.1): 基 于 信 源 模型 的 分 析 , 把 信号 样 点 转换 成 模型 参 
数 ; 参 数 的 前 化 (对 于 有 损 编码 系统 ) ;以 及 藤 化 参数 的 二 进 制 编码 。 

© 个 同 编码 系统 之 间 的 主要 区 别 在 于 所 用 的 信 源 模型 。 视 频 编 码 方法 可 以 分 为 两 类 :一 
类 采用 直接 肯 征 像素 值 ( 基 于 波形 的 ) 的 信 源 模型 ,一 类 采用 描述 所 包含 的 物体 结构 ( 基 
于 内 容 的 ) 的 模型 。 
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无 损 和 有 换 编 码 的 界限 (8.3 H) 
离散 信 源 的 无 损 编 码 所 需要 的 最 小 码 率 是 由 信 源 焙 率 确定 的 (定理 8.2)。 
© 在 给 定 失真 (RD 界限 ) 下 ,编码 所 需要 的 最 低 码 率 是 由 原始 和 量化 信 源 之 问 的 最 小 互信 
息 人 确定 的 (定理 8.4)。 
© 只 有 无 限 多 个 样 点 一 起 编码 才能 达到 上 述 界限 。 
e 在 具有 相同 方差 的 所 有 信 源 中 ,高 斯 信 源 需要 最 高 的 比特 率 。 


二 进 制 编码 {8.4 T) 
二进制 编 始 可 以 一 次 应 用 于 一 个 样 点 或 一 组 样 点 ,具有 或 不 其 有 基于 前 面 样 点 的 条 件 。 
。 哈 夫 曼 编码 和 算术 编码 是 可 变 长 编码 的 两 种 最 流行 的 方法 。 哈 大 曼 编码 器 的 设计 和 操 
作 较 简单 ,但 不 能 达到 具有 合理 复杂 度 的 无 栅 编 码 的 界限 。 也 难于 使 哈 夫 曼 编 码 器 适 
应 信号 统计 特性 的 变化 。 算 术 编码 髓 能 够 更 容易 达到 炳 界限 ,日 对 非 平稳 信和 号 更 有 效 ， 
但 它们 的 实现 也 更 复杂 。 


标量 量化 (8.5 t) 
© MSE 最 优化 的 必要 条 件 是 质心 条 件 ( 公 式 (8.5.13) 或 (8.5.15)) 和 最 邻近 条 件 (公式 
(8.5.12) 或 (8.5.14))。 局 部 最 优 重 化 器 可 以 用 劳 埃 德 算法 进行 设计 (网 8.9)。 
OXF) MMSE 基 化 器 , 当 码 率 足 够 高 时 , 信 源 的 运算 RD 也 数 具有 公式 (8.5.18) 的 … 般 形 
Ro Fe? 取决 于 信 源 的 概率 密度 珊 数 。 
© MMSE 其 化 器 假设 用 固定 长 编码 对 量化 索引 进行 编码 。 用 可 变 长 编码 并 日 当 码 率 足 侃 
高 时 ,均匀 景 化 接近 最 佳 。 对 于 图 像 和 视频 编码 , 芍 匀 量化 后 跟 VIC 比 非 均 休 量化 更 
经 常 被 采用 。 
矢量 量化 (8.6 节 ) 
eVQ 可 以 利用 样 点 之 间 的 相关 性 ,并 且 它 的 效率 随 矢 肢 维 数 的 增加 而 增加 。 妆 矢量 维 数 
趋 于 无 穷 时 ,有 可 能 达到 RD 界限 。 
O 一 般 的 无 条 件 的 VQ 编码 器 的 计算 复 打 度 和 存储 需求 随 矢量 维 数 的 增加 而 时 指数 增 
加 。 实 际 的 图 像 和 视频 编码 器 用 小 于 等 于 4x4 的 矢量 尺寸， 
* MSE 报 优化 的 必 有 要 条 件 是 质心 条 件 (公式 {8.6.17) 或 (8.6.15)) 和 最 邻近 条 件 ( 公 式 
《8.6.14)) 的 广义 形式 。 局 部 最 佳 矢量 量化 器 可 以 用 广义 劳 埃 德 算法 进行 设计 (图 8.14)。 



































8.8 习题 


8.1 和 此 虑 一 个 具有 字母 表 4 =la, ,a ，,…, a | 的 离散 信 源 。 计 算 以 下 两 种 情况 下 信 源 的 精 ， 
(a) 信 源 是 均匀 分 布 的 ,具有 p(a,) = 1/L, YIEC。 
(b) 对 于 一 个 特殊 的 EEC,p(w) =1 Al pla) =0, 14k 

8.2 证 明 公 式 (8,2.6 ~ 8.2.12) 所 给 出 的 关系 。 





第 8 章 视频 编码 基础 201 








8.4 
8.5 


8.7 


8.10 


8.12 


证 明 公 式 (8.2.17 ~ 8.2.19) 所 给 出 的 关系 。 
证 明 均 值 为 9, 方差 为 o 的 一 个 高 斯 RV AAR MIS Sk (8.2.23) BAR 
说 明 N 阶 矢量 编码 比 (N - 1) 阶 条 件 编 码 差 ,如 果 : 
TNF) nF) > Mad 
一 个 有 三 个 符号 .4 = | el ,ez asj 的 马尔 可 夫 信 源 具有 如 下 的 概率 分 布 ， 


p(a,) = 4, i = 1,2,3 





于 ”其 他 


Ca) EERE RR — BRE BME — BY A A 

(b) 为 此 信 源 设计 一 阶 , 二 阶 和 一 阶 条 件 哈 去 曼 码 。 计 算 每 种 情况 产生 的 比特 率 。 
Co) 此 信 源 可 以 达到 的 最 小 比特 率 是 多 少 ? 如何 达 到 这 个 最 小 比特 率 ? 

用 算术 编码 来 编码 和 解码 以 下 序列 。 用 序列 中 每 种 符号 出 现 的 频率 作为 该 符号 概 
率 的 估计 。 
信 源 序列 :acbaabacacha 

编 公 序列 的 比特 率 是 多 少 ? 把 此 结果 与 标量 哈 夫 曼 编码 相 比 较 。 

说 明 半 于 MMSE 量化 器 ,原始 的 随机 变量 下 .量化 后 的 随机 变量 6 以 及 量化 误差 
急 = 夺 -9 满足 如 下 的 统计 关系 : 

(a) 量化 值 是 原始 值 的 无 偏 估 计 ; E191 = EIF] 

(b) 量化 值 与 量化 误差 正 交 : Ei9 Qi =0。 

(ec) 量化 过 程 碱 小 了 信号 方差 ,08 = oF - 0d. 

说 明 均匀 信 源 的 MMSE 量化 器 由 公式 (8.5.7) 给 出 。 

证 明 对 于 具有 任意 均值 y 和 方差 的 信 源 ,最 优 重建 值 和 界限 值 可 以 由 按照 公式 
(8.5.17) 对 一 个 零 均值 和 单位 方差 的 信 源 所 导出 的 最 优 重建 值 和 和 界限 值 获得 。 

考虑 一 个 具有 概率 密度 函数 p(f) = (A/2)e ?的 随机 变量 大。 一 个 三 级 量化 器 定 
XH: 


























b f>a 
ep =10 -agfsga 
-b f<-a 


(a) 对 于 给 定 的 a, 求 b 使 得 当 失 真 测度 是 MSE 时 满足 质心 条 件 。 

(b) 对 于 给 定 的 5, 求 e 使 之 满足 最 邻近 条 件 。 

Co) 根据 AOR a,b 的 最 优 集 ,使 得 两 个 条 件 都 得 到 满足 。 导 出 最 终 的 MSE, 

公式 (8.5.12 及 8.5.13) 中 所 给 出 的 最 优化 条 件 是 通过 MSE 最 小 化 导出 的 。 下 面 ， 

我 们 考虑 其 他 的 失真 测度 。 

(a) 如 果 失 真 准则 是 平均 绝对 误差 (MAE) ,也 就 是 说 D, = ELF- OCF), EHH 
组 类 似 的 公式 。 证 明 判定 区 域 8; = [A b JT Mia g 是: 
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[ore sod = [ori re Bow 
由 就 是 说 ,8 HEM RIS, CREE gy 也 称 为 区 域 B, FHL. TEX 
种 欠 真 测度 下 的 起 邻 近 条 件 的 形式 是 什么 ? 
O) REPRENAS pO) =Le vie ds MAE 准则 下 区 域 B, 的 广 


义 质 心 。 把 这 个 质心 与 基于 MSE 准则 D, = ELIF - Q( 天 ) 1 所 确定 的 质心 机 
比较 。 





3 BIER BREF = 局 ,k=1,2,…, | 的 量化 器 ,其 中 ,fi EN ERE- 设 两 个 


RLS TAA ACME ALI WS, aE 
0 f=g 


d(f.g) = { 其 他 


把 这 些 失 景 量化 成 L< K MOS. 

时 于 售 源 的 一 个 给 定 的 分 制 区 域 3, = | ,= 1,2,…, KK} ,基于 质心 规则 为 这 个 

区 域 确定 一 个 新 的 码 字 。 

(b) 对 于 给 定 的 码 字 集 C = jg ,g,…, gi, 基于 最 邻近 规则 确定 一 个 新 的 信 源 分 
刘 。 这 个 分 割 足 民 一 的 吗 ? 

Co) 从 信 洛 的 …… 个 任意 的 初始 分 割 开始 ,需要 多 少 次 选 代 才能 达到 .个 局 部 最 优 的 
Ty le 

GER ERRARE: (1) 当 所 有 的 训练 矢量 不 相同 时 ; (2) 当 一 些 训练 矢量 相 

同时 。》 

-个 二 维 矢 量 晤 化 器 有 两 个 码 宁 :有 = [112,112]1, 包 = [- 112, -112]"。 设 输入 失 
bt f= [A ,六 坟 均匀 分 布 在 一 个 由 -1< 太 <1 和 -1< 卢 <1 定 义 的 正方 形 内 。 疼 示 
与 两 个 码 字 有 关 的 分 割 区 域 , 并 确定 此 量化 器 的 MSE( 写 出 积分 公式 即 可 )。 

一 个 有 限 区 域 上 的 二 维 点 阵 量化 器 由 gj = m Bl gy = m+2n 定义 的 码 字 (g , g,) 组 
成 ,其 中 m,n 是 整数 ,使 得 (g, ，g,) 落 人 指定 的 区 域 。 

(a) 男 出 原点 附近 的 码 字 种 分割 区 域 。 

(b) 设计 -个 算法 , 它 为 平面 上 的 任意 一 个 给 定 的 输入 点 人 确定 最 接近 的 码 字 。 

Ce) 用 (hb) 中 的 算法 , 求 点 (123.4,456.7) 的 最 接近 的 
(d) 如 果 输 入 均匀 地 分 布 在 由 所 有 分 割 区 域 所 张 成 的 空间 ,确定 此 量化 器 的 MSE, 
基于 由 一 个 二 维 1.i.d. 高 斯 信 源 生成 的 训练 数据 , 写 出 实现 广义 劳 埃 德 算法 的 C 或 
MATLAB 代 码 。 假 设 每 个 样 点 的 两 个 分 量 是 独立 的 ,并 月 二 者 都 赴 零 均值 和 单位 方 
美的 。 可 以 选择 所 用 的 样 点 数 和 码 书 的 大 小 。 如 图 8.15 那样 用 二 维 图 中 的 叉 和 加 
图 标 出 每 次 迄 代 后 的 训练 样 点 和 码 字 

重复 习题 8.16, 但 假设 两 个 矢量 分 量 与 相关 系数 p 有 关 。 比 较 用 不 同 的 e 值 所 得 的 
结果 。 
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第 9 章 基于 波形 的 视频 编码 


第 8 章 介 绍 了 基于 波形 和 基于 内 容 的 视频 编码 的 基本 技术 。 本 章 将 集中 介绍 基于 波形 的 
视频 编码 技术 .首先 ,描述 基于 块 的 变换 编码 技术 (9.1 节 ), 这 种 技术 把 每 个 像素 块 转换 成 一 
弓 不 相关 的 系数 ,然后 再 其 化 编码 。 我 们 介绍 重要 的 卡 胡 南 - 洛 那天 变换 (KLT) 以 及 它 的 近 
似 一 一 在 大 多 数 现 代 图 像 编 码 标准 中 使 用 的 离散 余弦 变换 (DCT)。 采 用 凡 一 种 重要 您 换 , 即 
小 波 变 换 的 编码 方法 将 在 第 11 章 中 描述 可 分 级 编码 时 介绍 。9 ,2 WA ARAE Fd A TL 
济 的 编码 技术 。 这些 技 术 利 用 相 争 像素 的 空间 相关 性 以 及 序列 的 相继 帧 之 问 的 时 间 相 关 伞 米 
降低 视频 序列 的 码 率 。 (空间 相关 性 源 于 这 样 的 事实 : 奖 一 视频 帧 中 机 邻 像素 的 彩色 值 通常 都 
是 于 济 变 化 的 ;时 间 析 大 性 是 指 这 样 的 事实 :序列 的 相继 帧 通常 表现 由 同 的 物理 场景 ,这 个 场 
景 可 能 被 相 问 物体 所 目 据 ,而 物体 可 能 是 移动 的 .) 我 们 通过 给 出 一 个 编码 方案 来 总 结 本 章 , 这 
个 方案 联合 了 变换 和 预测 编码 (9.3 节 ), 是 已 经 在 所 有 国际 视频 编码 标准 中 采用 的 --- 种 流行 
而 在 效 的 技术 。 



































9.1 基于 块 的 变换 编码 








已 经 证 明 变 换 编 码 对 于 压缩 静止 网 像 和 视频 帧 特别 有 效 ， 理 想 情况 上 , 为 了 充分 利用 像 
素 之 间 的 空间 相关 性 , 变换 应 该 应 用 于 整 幅 图 像 或 视频 帧 。 但 为 了 降低 计算 的 复杂 度 ,基于 块 
的 变换 编码 ( 拒 图 像 分 成 非 重 蕉 块 并 在 每 个 块 上 应 用 宣 换 ) 在 实际 中 更 为 常用 。 本 音 只 描述 基 
于 块 的 变换 编码 ,集中 介绍 标准 岗 像 和 视频 编 公 器 中 所 用 的 一 类 算法 。 对 于 变换 编 吗 更 广泛 
的 介绍 ,读者 可 以 参考 Clark [6] 。 

我 们 从 变换 编码 概述 开始 ,概念 性 地 介绍 如 何 进行 以 及 为 什么 要 进行 变换 编码 (9.1.1 节 )。 
然后 正式 定义 一 维和 一 维 西 变换 (9.1.2 节 及 9.1.3 节 ), 并 日 作为 例 了 定义 DCT 变换 {9.1.4 Yo 
9.1.5 节 讨 论 如 何 最 住地 在 变换 系数 之 间 分 本 比特, 使 得 均 方 误差 为 最 小 。 这 一 节 也 要 时 出 标量 
址 化 灾 换 编 借 的 增益 。 这 些 结 果 是 在 假设 任意 的 西 实 换 下 获得 的 。9.1.6 WY SRP 
到 所 有 西安 换 之 间 最 高 编码 增益 的 必要 条 件 ,并 且说 明了 KIT 是 这 种 意义 上 的 最 任 变换 。 然而 ， 

半 号 的 统计 特性 而 日 很 难 计算 ;幸运 的 厦 , 对 于 大 多 数 图 像 信 号 ,DCT 是 KIT 的 一 个 

很 好 的 近似 。 因 此 ,基于 DET 的 编码 已 被 所 有 的 图 像 和 视频 编码 标准 所 采用 。9.1.7 节 给 出 基 
-F DET 的 图 像 编码 算法 ,与 JPEG 标准 所 用 的 算法 相同 。 用 于 视频 编码 的 这 个 算法 的 修正 在 
9.3.1 节 和 第 13 章 中 介绍 。 在 9.1.8 节 中 我 们 以 对 矢量 变换 的 简略 介绍 来 结束 本 节 。 
9.1.1 概述 

最 流行 的 基于 波形 的 贸 像 编码 方案 之 一 足 变 换 编 码 。 在 基于 块 的 灾 换 编码 中 ，- 个 图 
分 解 为 非 重 释 的 块 ,每 个 块 变换 成 一 弓 系 数 。 这 些 系数 用 标量 量化 器 分 别 量化 。 最 后 用 可 变 
长 编码 把 量化 的 系数 索引 转换 成 二 进 制 比 特 。 在 解码 器 中 ,通过 这 恋 换 由 量化 系数 恢复 图 像 
块 。 图 9.1 给 出 了 一 个 典型 变换 编码 器 的 编码 器 和 解码 器 的 工作 过 程 。 
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变换 系数 RARI 编码 比特 流 BRE 


输出 
BA i 
RA Ed 样 点 
>| S >| > 
= E] : 


9.1 — PRB aS EAE HB A A A HEE 


HERECAATARHE RRL HRE RTA LR ET ARR 
为 一 组 基本 图 形 ( 称 为 变换 基 两 数 ) 的 线性 组 合 ,如 图 9.2 所 未 。 每 个 基 图 形 的 贡献 是 对 应 于 
那个 变换 基 函 数 的 变换 系数 。 对 于 一 个 给 定 的 图 像 块 ,导出 变换 系数 的 过 程 是 正 变换 ,而 用 变 
换 系 数 重 建 图 像 块 的 过 程 是 逆 变 换 。 





下 变换 
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解码 器 
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| M 
图 9.2 一 个 - : 维 变换 是 图 像 在 - EAR IR Gb 
的 投影 ,每 个 基本 图 形 都 称 为 -个 变换 基 


变换 设计 准则 ”显然 ,变换 编码 器 的 性 能 取决 于 所 用 的 基 孙 数 。 一 个 好 的 变换 应 该 : {1) 
对 从 量化 的 信号 去 相关 ,以 便 可 以 对 各 个 值 有 效 地 使 用 标 重 量化 而 不 会 损失 大 多 的 编码 效率 
(与 矢量 量化 相 比 )。(2) 把 原始 像素 块 的 能 量 尽量 压缩 到 少数 的 几 个 系数 。 后 一 个 特性 允许 
我 们 用 几 个 具有 大 幅度 的 系数 表示 原始 块 。 如 9.1.6 节 将 要 说 明 的 ,在 这 些 准则 下 最 好 的 变 
换 是 KLT。 但 是 ,因为 KLT 取决 于 信号 的 二 阶 统计 特性 旦 难以 计算 ,所 以 实际 中 用 固定 的 变换 
来 近似 KLT。 对 于 一 般 的 图 像 信号 ,最 近似 KIT 的 变换 是 DCT, 因 此 在 几乎 所 有 的 基于 变换 的 
图 像 编 码 器 中 都 用 DCT. 

变换 编码 和 矢量 量化 ”通常 图 像 中 的 相 邻 像素 之 间 是 相关 的 ,因此 单独 表示 每 个 像素 值 是 
效率 不 高 的 。 利 用 相 邻 像素 之 间 的 相关 性 的 -各 方法 是 用 矢量 基 化 把 像素 块 一 起 量化 , 它 用 最 
接近 原始 块 的 一 个 典型 的 块 图 形 来 代替 每 个 图 像 决 。 块 越 大 ,就 越 能 充分 利用 像素 之 间 的 相关 
性 ,可 以 达到 的 压缩 增益 就 起 高 。 遗 憾 的 是 ,如 8%8.6 节 所 述 ,搜索 最 佳 匹配 模式 的 复杂 度 也 随 块 
的 大 小 而 旺 指数 增长 。 变 换 编码 是 充 需 穷尽 搜索 而 实现 条 件 矢量 量化 器 的 一 种 途径 。 具 体 地 
说 ,这 种 量化 器 中 的 码 字 可 以 用 量化 的 系数 和 基 矢 量 进行 线性 组 合 来 表示 。 因 为 每 个 系数 取决 
于 整个 图 像 块 ,所 以 这 些 变换 系数 的 标量 量化 实际 上 完成 整个 块 的 矢量 量化 ,但 降低 了 复杂 度 。 
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9.1.2 一 维 丁 变换 


一 般 的 一 维 线性 变换 如 上 所 述 ,变换 过 程 可 以 认为 把 图 像 抉 分 解 成 “组 基本 的 块 图 形 
实际 中 ,对 于 二 维 线性 变换 也 是 如 此 。 在 正式 定义 二 维 变 挨 前 ,我 们 先 定义 一 维 变 换 ， 在 这 种 
情况 下 ,一 维 信号 被 化 分 为 长 度 为 N 的 矢量 ,并 把 每 个 矢量 表示 为 一 纹 基 矢量 的 线性 组 合 。 
每 个 变换 系数 表 修一 个 基 矢 最 的 页 献 。 从 数学 上 潮 , 可 以 借助 算 阵 运算 来 获得 这 些 系数 。 分 
ss [sss sw] 表示 由 原始 样 点 组 成 的 矢量 ,而 t= [ese]? 表示 包含 所 有 变换 系 
数 的 和 色 量 。 进 一 步 , 令 m = Fas ya tan]? 表示 对 应 第 上 个 变换 基 的 矢量 ,而 !U] = [um ， 
moo RRO STARR RE, FE AAR s 的 逆 变 换 为 : 

Wes = X uw = [ule (9.1.1) 
EN 


其 中 A =11,2,…,N|。 为 了 能 用 N PSR Ah ae ERR N 维 估量, 基 矢量 必须 线性 独立 ,在 

这 种 情况 下 矩阵 [U] 必 须 可 逆 , 蛮 换 系 数 由 下 式 确 定 ; 

正 变换 :t = [U}'s = [Y]s (9.1.2) 
为 了 般 件 ,我 们 假设 基 失 量 n 可 以 包含 复 分 量 ,从 而 ui BEN 维 复 空间 C*。 在 这 种 

情况 下 ,即使 s 是 实 矢量 ,t 一 般 都 是 复 矢量 。 在 以 下 的 讨论 中 ,我 们 假 没 s 和 t 部属-J-C*。 
一 维 酉 变换 ”上述 讨论 对 变换 基 矢 量 未 加 任何 约束 , -种 特殊 类 型 的 线性 变换 是 酉 变 

Be FEL REA HFS 
TEMES MOE, GIT LB ALEC A BL BE GE LCP HH 

Hs, Als, 的 内 积 定义 为 ; 

















(858) = S79 = >) sinszs (9.1.3) 
2. 


z 


E DER H RRR Be Pe RE. WEC, s) = 0, WAR PRB AA IER. 
SEC 的 范 数 ‖ s | 定义 为 
llsll? = (s,s) = >. is, | (9.1.4) 
nE A’ 
范 数 |s | 表示 s ORERE, MARFA |) s l? 表示 s HORE LE, 具有 单位 范 数 的 矢量 称 
为 归 “化 矢量 。 如 果 两 个 矢量 相互 正 交 ,并 是 每 一 个 都 是 由 一 化 的 , 则 称 它们 为 正 交 妇 一 的 。 
如 果 公 式 (9.1.2) 中 定义 的 线性 变换 的 基 矢 量 相 芋 正 交 , 也 就 是 说 ,如 果 








+. 1 k=l 
(Mo) = p Usain = Ope = D tal (9.1.5) 

WA EMU: 
[u]"lu} = [U] U] = [Ns (9.1.6) 


其 中 [了 ,表示 一 个 Nx NAVARA SE, EMR CHS MR PRR, SSSR DU Ee 
SAREE TEER EM. TOXIR FIU]? = CU)" JFL t= [U]”s 38 n = 《ui,s)= 
wis RUB RM, REH P k MR RR, 可 以 简单 地 市 s 与 u 的 内 积 求 得 。 
总 而 言 之 ,一 个 酉 变换 对 定义 为 : 
TES: = 《ms) t= [U]"s = iVjs 


WER: = D> qu, = [U] = [V]"t (9.1.7) 
EN 
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通常 ,我们 用 正 变换 矩阵 [V] = [UJ* RSPR RAE ELV PFT NSE GE. 
例 9.1 (一 维 DFT) 
SiN 点 DET 定 义 为 ; 
正 变换 : = knee k = O01 Nl 


Naz 


(9.1.8) 
BER s = =e n= 0,1, N= 1 
ROBHETORS, TAAR CRRA EFELER -ANEA 
Una = Few in =O N= 1,k = 0,1,4, N- 1 (9.1.9) 
或 
了 -AU R o PIT gO N-A (9.1.10) 


注意 ARNAT P AMERI WARI ki n REA 04) 六 -1 而 非 1 到 N 
酉 变换 的 性 质 ”到 月 前 为 止 ,我 们 假设 s 是 给 定 的 样 点 矢量 ,而 t 是 它 的 变换 。 实际 上 ,s 是 随 
机 矢量 S =[S SS ,1 的 一 个 实现 ,对 应 于 从 信 源 中 抽取 的 任何 N 个 样 点 。 类 似 地 ,t 是 
BLT =(T TT [VS 的 一 个 实现 。 在 变换 编码 中 ,我 们 不 仅 对 s 和 + 之 间 的 
关系 感 兴趣 ,而 旦 也 对 与 工 的 统计 特性 之 间 的 关系 感 兴趣 。 对 于 本 变换 ,存在 以 下 关系 : 
1, 的 位 矢量 ns EISi m= EIT HERK: 
m = [V] = [VY] (9.1.11) 
WLC) EKS ~ 9) (S-n) F (C= EMT -n) (T -n ZARAR 
为 : 
[C], = [VIECIIVY, EC], = FV]"[CIV] (9.1.12) 
2. 变换 矢量 的 总 能 禾 等 于 样 点 矢 景 的 站 能 量 。 这 对 于 给 定 的 实现 和 全 体 的 平均 都 是 正 
确 的 。 也 就 是 说 ， 





Sse V8 (9.1.13) 
EN KEN 

D 0 = D da (9.1.14) 
aby EN 


Ho, = BUCS, ~ 9.) Mot = EMT, -pa AES, 和 工 ,的 方差 。( 这 个 性 质 
等 价 于 傅 里 叶 变 换 的 由 斯 维 尔 定理 。) 
3. 设 我 们 只 用 前 K< N 个 系数 来 近似 5, 近似 矢量 是 $4 = SO na , 则 近似 误差 信号 是 


Ex =S- 8 = Dia 40,0 对 于 给 定 的 s, 近 似 误差 的 能 量 古 。 
led?= Ses Ma (9.1.15) 
A ea 


£x= 8-8, 05 Sk LWHEE: 
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EUW Ex = D oe = X oe (9.1.16) 
“EN 


因为 所 有 系数 的 平方 或 方差 的 和 是 常数 (公式 (9.1.13) 或 (9-1.14)) ,如 果 我 们 选择 共有 最 大 
值 的 K 个 系数 来 近似 晨 始 信号 , 则 近似 误差 对 于 一 个 特殊 的 信号 矢量 是 最 小 的 。 类 似 地 , 通 
过 选择 个 具有 最 大 方差 的 系数 可 使 平均 近似 误差 最 小 。 

以 上 关系 式 的 证 明 是 相当 简单 的 , 留 做 课 后 练 半 (习题 9.1)。 


9.1.3 二 维 丁 变换 

[ 述 讨 论 假 设 输入 样 点 是 来 自 一 维 信号 。 对 于 二 维 图 像 块 ,如 果 我 们 把 s 认为 是 按 一 维 
次 序 排列 的 一 个 图 像 块 的 样 点 所 组 成 的 矢量 ,并 且 把 每 个 w 认为 是 一 个 基 图 像 按 同样 的 一 维 
次 序 排列 的 矢量 袁 示 ,那么 这 些 描述 仍然 适用 、 然 而 ,我 们 也 可 以 把 一 维 变换 的 定义 推广 到 二 
维 。 在 这 种 情况 下 ,- -个 好 x N BARRIS] = [ S。。] 被 表示 为 M x N PERRO, = 
LUiimn] EEM ,1EN 的 线性 组 合 ( 见 图 9.2), 即 : 


[S] = >) >， 7.001, 


KEMIEN 
其 中 Ad = 11,2, Mi, N = 1,2,7, Nẹo 
GCIR M x N 维 的 复 空间 。 令 [S]; = [Sine LISI =T Sunn ERRE. 
































(9.1.17) 





DX AMERA REX A: 
[S11,[S]) = $ D Siansa (9.1.18) 
mE MEN 
年 阵 [S] = [ S。。] 的 范 数 定义 为 ; 
(sll? = (SI,[SD = D 和 15 (9.1.19) 
me MeN 


根据 这 些 定义 ,-- 组 基 图 像 [U]s.(kE AM ,1E NA) 被 称 为 相互 正 交 , 如 果 : 
k= 
(CM TUL) = 8.8, = [Obey 
对 于 -组 正 交 的 基 图 像 ,可 以 很 容易 地 由 Try = 《LUl1,[S]) 求 出 变换 系数 。 一 个 MxN 
的 一 维 酉 变换 的 正 变换 与 逆 变 换 的 关系 是 : 
= ((U],,..[8])> 


(9.1.20) 


(9.1.21 
rassi- D D rl), ) 
$19.2 {二 维 DFT) 
一 个 大 小 为 Mx NN 的 二 维 DFT 定义 为 ; 
ERR: T, = Aa Ser 

k= 0 po, M-I, l= rn (9.1.22) 

kes, = SYS 1 el 

ERR Sa, AR À D Tae 


3 
1 
e 
= 
1 
3 
W 
S 


een =l 
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可 以 看 出 这 是 一 种 二 维 西 变换 ,其 基 图 像 定 义 为 ; 
Unisma = am mk = Ody M- 1,n,l (9.1.23) 


À 








可 分 离 的 变换 “一 类 特别 重要 的 二 维 变换 是 它 的 每 一 个 基 图 像 是 两 个 一 维 变换 的 基 矢 量 
BREL FXE ,使 用 的 所 有 二 维 变换 都 属于 此 类 。 特 别 地 , 令 hi (EMA g, (LEN ) 分 别 
FRC” 和 Cc* 中 的 基 矢 量 , 则 我 们 可 以 由 下 式 构成 Cxx* 中 的 基 图 像 : 

[U] = BB" ER Ue tena = Membr E M, LEN (9.1.24) 
可 以 证 明 只 要 he (hE AA) A g (LEN ) 分 别 形成 C4 和 C* 中 的 正 交 基 组 , 则 [U] (EM, 
TEN ) 就 将 形成 C% "中 的 正 交 基 组 。 
例 9.3 ( 可 分 离 变 换 的 二 维 DFT) 
回忆 Mx N 点 的 二 维 DFT 的 基 围 像 是 ; 











区 
a MA DET fe NS DFT HRA EDA: 


hem = 





Lert = Lat 

vue R 

IRA E, Urma = hngino AM xN 点 的 二 维 DFT 是 由 一 个 M 点 的 一 维 DFT 和 一 
个 NN 点 的 一 维 DFT 构成 的 可 分 离 的 变换 。 


当 变 换 可 分 离 时 ,我 们 可 以 先 对 每 行 用 基 和 矩阵 [G] = [82 1° By | 完成 一 维 变换 ,然后 再 
对 中 间 图 像 的 每 列 用 基 短 阵 [H] = fn ,hs ,… ,hw ] 执 行 一 维 变换 。 这 个 操作 可 以 表示 为 : 

正 变换 ;[T] = [HJ]*[SJ][G] 
逆 变 换 :[S] = [H]J[S][G]? 

当 二 维 案 换 可 分 离 时 , 它 的 等 效 一 维 变 换 表 示 的 变 模 第 阵 将 是 矩阵 [G] 和 [H] 的 克 罗 耐 克 
《Kronecker) 积 。 对 于 这 个 课题 更 详尽 的 讨论 ,包括 可 分 高 变换 的 其 他 性 质 , 见 [18,5.2 节 ]。 

可 分 离 变换 在 计算 上 的 节省 ”为 确定 一 个 Mx N 变换 的 每 个 系数 ,一 般 需要 进行 Mx N 
次 运算 ,为 了 确定 所 有 的 M x N 个 系数 ,计算 总 数 为 PN OY M = NN 时 为 N'。 另 一 方面 , 当 
变换 是 可 分 离 的 ,我 们 首先 沿 履行 的 每 一 行 计算 N 点 一 维 变换 , 每 行 需要 ON 次 运算 。 再 沿 
六 列 的 每 一 列 计算 于 点 一 维 变换 ,每 列 需 要 M 次 运算 。 总 的 计算 次 数 是 MN + NM ,如 果 
M = NBER IN’, 4 N BERETS N 到 2N? 的 减 小 是 显著 的 。 

如 果 存 在 计算 一 维 变 换 的 快速 算法 ,那么 可 以 获得 进一步 的 节省 。 例 如 ,如 果 NN 点 一 维 
变换 需要 Mog N 次 运算 ,那么 Nx N 的 二 维 可 分 离 变 换 可 以 用 2N"logy N 次 运算 完成 。 
9.1.4 离散 余弦 变换 

除 DFT 外 ,还 已 经 为 信号 分 析 开 发 出 许多 其 他 的 变换 , 包括 离散 余弦 变换 (DCT) ARE 
营 变 换 (DST) 阿达 玛 (Hadamard) 变 换 、 沃 尔 什 (Walsh) 变 换 、 哈 尔 (Haar)] 变 换 以 及 条 变换 (这 些 


变换 的 基 尔 量 的 定义 见 参考 文献 [12] 或 [18]) 。 所 有 这 些 变换 起 初 都 是 以 一 维 形式 定义 的 ,可 
以 用 米 构造 二 维 可 分 离 的 变换 。DFT 最 广泛 地 应 用 于 离散 信号 的 频 域 分 析 。 然 而 ,已 发 现 DCT 














(9.1.25) 
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对 信 源 编码 特别 是 图 像 编 码 更 有 用 。 因 此 ,本 节 介绍 DCT, 并 给 出 应 用 它 来 表示 图 像 的 例子 











—HE N A DCT 的 基 饼 量 定义 为 : 


tain = @Ck)cos 


Ons Dkr, 20,1, N1 


其 中 





IEE ALE BIEN 
Wy KOSE con (22 š -Dkr 


5, = J esata = ea Gaull 
与 DFT 一 样 ， 我 们 根据 习惯 对 入 坡 0 到 入 1 的 索引 范 困 。 





注意 ,DCT 基 矢 量 是 实 矢量 , 随 频 率 的 增加 以 正弦 图 形变 化 。 每 个 DCT 系数 确定 正弦 图 
形 在 实际 信号 的 一 个 特定 频率 上 的 贡献 。 最 低 的 系数 称 为 DC 系数 ,表示 信号 的 











他 的 系数 ( 称 为 4C 系数 ) 与 递增 的 较 高 的 频率 相 联 系 。 


(9.1.26) 


(9.1.27) 
(9.1.28) 


(9.1.29) 


(9.1.30) 

















均值 。 其 





HE M x N RU DCT 是 由 一 维 开 点 DCT 基 和 点 DCT 基 构成 的 。 也 就 是 说 ,每 个 Hx 的 
ARRE M 点 DCT 基 矢 量 与 点 DCT 基 矢 量 的 外 积 。 图 9.3 给 出 了 对 应 8x8 DCT 的 基 图 像 。 为 
了 获得 一 个 图 像 块 的 二 维 DCT, 首 先 可 以 对 图 像 块 的 每 行 运用 对 应 的 一 维 DCT, 然 后 再 对 经 行 变 换 
的 块 的 每 列 应 用 一 维 DCT。 存 在 几 种 计算 N 点 一 维 DCT 的 快速 算法 ,只 需 Mog N 次 运算 [4,21]。 



































iii 


图 9.3 8x8 DoT ERHRBR 
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DCT 能 够 很 好 地 适用 于 图 像 编码 ,其 原因 是 图 像 块 经 常 可 以 用 几 个 低频 DCT 系数 表示 。 
这 十 因为 图 像 中 的 强度 亿 通 常 是 平滑 变 北 的 ,高 频 部 分 只 在 边缘 附近 存在 。 图 9.4 给 出 了 一 
个 测试 图 像 的 DCT 系数 的 能 基 ( 即 方差 ) 分 布 。 用 “2Z" 形 扫描 (在 9.1.7 节 描述 ) 排 序 系数 ,以 
便 使 垂直 和 水 平方 向 上 的 低 素 引 的 系数 放 在 前 面 。 可 以 看 出 DCT 系数 的 能 量 随 频率 索引 的 
增加 而 迅速 下 降 。 图 9.$ 示 出 了 使 用 四 种 不 同 数 自 的 DCT 系数 的 测试 图 像 的 近似 。 可 以 看 
刘 , 只 用 每 个 块 的 64 个 系数 中 的 16 个 系数 ,我 们 就 已 经 可 以 相当 好 地 表示 原始 图 像 了 。 












































DC 系数 方差 
3 


z 


10 














10 20 


30 40 50 


“2” TUERI 


图 9.4 测试 图 像 “ 花 "的 8x8 DCT 系数 的 能 甚 分布 


9.1.5 比特 分 配 和 变换 编码 增 蔓 


在 本 节 中 ,我 们 考虑 变换 编码 器 的 率 失真 性 能 。 尽 管 我 们 对 二 维 变换 最 感 兴趣 ,但 我 们 在 
分 析 中 将 使 用 -- 维 变换 表示 。 因 为 任何 二 维 信 号 部 可 以 映射 到 一 维 ,然后 再 变换 ,所 以 这 种 选 
择 不 会 限制 分 析 结 果 的 可 应 用 人性。 我 们 将 假设 变换 是 任意 的 一 维 酉 变换 。 进 一 步 假设 分 别 量 
化 变换 系数 ,每 个 系数 采用 基于 该 系数 概率 密 记 函 数 的 最 佳 的 标量 景 化 器 ;并 且 用 固定 长 编码 
把 量化 系数 转化 为 比特 。 我 们 的 目的 是 要 导出 在 给 定 的 矢量 中 ,每 个 样 点 的 平均 失真 与 每 个 
样 点 的 平均 比特 率 之 同 的 关系 。 我 们 也 将 把 变换 编码 可 以 达到 的 性 能 与 对 每 个 原始 样 点 进行 











标量 量化 的 POM 系统 的 件 能 相 比 较 。 

















样 点 失真 与 系数 失真 之 间 的 关系 ”首先 ,我 们 必须 建立 重建 样 点 的 量化 误差 与 变换 系数 
的 大 化 误差 之 竹 的 关系 。 在 本 节 中 将 无 例外 地 用 MSE 作为 失真 准则 


WT, 分 别 表示 对 应 于 和 4 的 随机 变 景 ， 





o WAIE RIAS, 

















信和 了 分 别 表示 对 应 了 


F s 和 上 随机 矢量 。 除 此 


ZIA DS SAK s,,s,S ,全 的 量化 形式 ,用 LL, Tem nt T, TRR 
形式 。 原 始 样 点 与 重建 样 点 之 问 的 每 个 样 点 的 MSE E: 


1 å 1 
D, = RES - S|") = 万 2 Pow 


(9.1.31) 
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图 9.5 用 不 同 数目 的 系数 重建 的 图 像 “ 花 "。 左 上 图 是 每 个 块 用 64 
个 系数 的 原始 图 像 ; 布 上 图 用 16 个 系数 ;去 下 图 用 8 个 系 
数 ;而 右 下 图 用 4 个 系数 。DCT 系 数 是 以 “Z" 形 顺序 排序 的 


其 中 
D,a = EKS,- Ê, (9.1.32) 
类 似 地 ,原始 系数 与 量化 系数 之 间 的 每 个 系数 的 MSE 是 : 
D = REIT -FIED Dua (9.1.33) 
EN 
其 中 
Da = ET, -7 (9.1.34) 
使 用 关系 
S =(vi rams - [v]? 工 (9.1.35) 
我 们 有 


D,= KELES ~ SU} = tee (vier - 7) 171 


1 
W 
= KENT - TY IVF - Ê) = Re T -Ê A = D, 
其 中 第 4 个 等 式 是 根据 [V] 的 西 性 质 。 这 个 结果 告诉 我 们 样 点 城中 的 平均 量化 误差 等 于 变换 
域 中 的 平均 量化 误差 
Fo RRRKT, 的 方差 ,并 且 令 RAD HRT, 的 比特 率 和 失真 。 由 公式 
(8.5.18), 当 Ry 足够 高 时 RIE: 
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Dia CR = 607.2% (9.1.36) 
Khel WATT, 的 概率 密度 函数 。 因 此 ,使 用 变换 编码 的 平均 失真 是 : 
Dy = D, = D, = 有 Gash {9.1.37) 


最 佳 比特 分 配 给 定期 望 的 平均 比特 率 记 , 间 题 是 如 何在 访 个 系数 之 间 分 配 总 的 比特 数 
RN, 使 得 公式 (9.1.37) 中 的 误差 最 小 化 。 用 拉 格 郎 日 冬 子 法 ,这 个 约束 的 最 小 化 问题 可 以 转化 
为 使 下 式 为 最 小 : 





TREEWN) = Dont + a(S) R - RN) (9.1.38) 
RENT EN 
其 中 必须 选择 A 以 满足 
D R= RN (9.1.39) 
KEN 
如 果 我 们 令 (3 13R,) =0, 可 得 : 
oP =- 2n2D,,, =- (2in2) gn 27% = a, YREN (9.1.40) 
为 了 确定 4 ,对 所 有 的 天 取 上 述 公 式 的 乘积 ,得 到 : 
AN = (an2y"( 门 2 ot JOP = Cana)" T yo? 22 (9.1.41) 
k k 
或 
A = (2m2)(T] Esa?) 28 (9.1.42) 
把 它 代入 公式 (9.1.40) 得 到 ; 
1 Euta 9.1.43) 
Me Ar ae TT ee) 8-1 
通过 这 样 的 比特 分 配 , 所 有 系数 造成 的 失真 都 相等 ,也 就 是 说 ， 
Dr = D, = Ba = (TE eg) 2 (9.1.44) 





公式 (9-1.43) 中 给 出 的 解 意味 着 方差 较 大 的 系数 应 该 给 予 较 多 的 比特 ,而 方差 较 小 的 系 
数 应 该 给 予 较 少 的 比特 。 最 佳 分 配 使 得 所 有 系数 具有 相同 的 量化 误差 。 

注意 ,对 于 具有 足够 小 方差 的 系数 ,按照 公式 (9.1.43) 所 确定 的 码 率 可 能 是 负 的 。 在 实际 
中 ,这 个 系数 的 码 率 必 须 置 为 零 , 相 当 于 根本 不 对 此 系数 进行 编码 。 必 须 减少 分 配给 其 他 系数 
的 比特 以 满足 原始 的 平均 比特 率 规定 。 对 于 明确 限制 R 是 非 负 的 或 非 负 整数 的 比特 分 配 算 
法 , 见 参考 文献 [34,31]。 

变换 编码 相对 于 PCM 的 增益 ”假设 原始 样 点 来 源 于 平稳 信 源 ,从 而 每 个 样 点 都 有 相同 
的 方差 oio WMA PCM 编码 此 信 源 ,也 就 是 说 把 最 佳 标量 量化 应 用 于 分 离 的 各 个 样 点 ,那么 失 
真 与 码 率 的 关系 为 : 





Day = Da = E2” (9.1.45) 
其 中 ,6 取决 于 信 源 样 点 的 概率 密度 函数 。 
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变换 编码 的 性 能 测度 是 相对 于 PCM 的 灾 换 编码 增益 ,定义 为 : 


Cr = = (9.1.46) 
把 公式 (9.1.45) 和 (9.1.44) 代 人 公式 (9.1.46) ,我 们 有 : 
en a  pXåa 


(9.1.47) 





Gre = 


dq aaa” © LT Leta” 
HRR PACE MASAO. 114) PA h h ae BE ERE Oo, = of 而 得 到 的 。 
Dt , 8 Be tha E be TER RR O AR Ey FTL ES ee REAA, 
对 于 任意 一 组 值 ,算术 平均 等 于 或 大 于 儿 何平 均 , 仅 当 所 有 值 都 相等 时 这 两 个 平均 才 相 等 。- - 
般 地 ,我 们 也 有 E>(1 1 6,,)”。 所 以 在 相同 平均 比特 率 下 , Creel Dms D 系数 的 
方差 值 越 不 平衡 ,它们 的 几何 平均 就 越 小 ,编码 增益 就 越 高 。 

当 信 源 是 高 斯 型 时 ,每 个 样 点 是 高 斯 型 的 。 因 为 每 个 变换 系数 是 样 点 的 线 牧 组 合 ,所 以 它 
也 符合 高 斯 分 布 。 在 这 种 情况 下 =, Batt: 


A N 
Cre.cuwim = Tio" = TIo" (9.1.48) 

例 9.4 考虑 对 一 幅 图 像 中 每 个 2x2 的 块 用 2x2 DCT 进 行 变 拉 编码、 假设 图 像 是 方差 为 o2 
的 平稳 高 斯 过 程 , 且 水 平方 向 、 重 直方 向 以 及 对 角 线 上 的 相 邻 像素 之 间 的 相关 系数 分 别 是 
PaO 和 pa, 如 图 9.6 所 示 。 我 们 要 对 于 给 定 的 平均 比特 率 R 确定 最 佳 的 比特 分 配 以 及 
相应 的 尖 真 ,把 这 个 编码 器 与 用 最 佳 标量 量化 器 直接 量化 每 个 样 点 欧 PCM 编码 器 进行 比 
较 , 且 给 出 对 于 =1,p6 =p. = 0 =0.95, pi = =0.9025 和 有 =2 这 一 特殊 情况 下 的 数 
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图 9.6 例 9.4~9.6 中 所 考虑 的 图 像 源 


为 求解 此 问题 ,把 2x2 个 像素 的 数组 排列 成 四 维 矢 量 , 并 把 2x2 的 二 维 DCT 当做 4 
点 的 一 维 DCT。 几 一 维 排序 s= [A,B,C D] ,假设 Ss 是 替 均 值 的 , 则 s 的 协 方 兰 趣 阵 是 : 
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A 
B Cm Ce Ce Cop 
c Ca Cua Coe Co 
D. 


[C], = E [ABCD]}= 
Cm Co Coe Cop (9.1.49) 
Lot M Pa 
sim 1 pa e 
= 0 
Pe Pe 1 Pp 
Pa Pe a 1 
2x2 DCT HARRA: 
1[L 1] afi -1] 1 L 1] 1 1 -1 
al, Jal abali abal il (9.1.50) 
REDE GER RAE, FAH RERE: 
L 1 1 i 
1|1 -1 1 -1 
=5 9.1.51 
[u] 21 E -1 -1 ‘ > 


l -1 -l 1 

用 公式 (9.1.12) 中 的 性 质 可 以 得 到 变 反 矢量 [C], 的 协 方差 矩阵 ,变换 系数 的 方差 是 

[C] 中 的 对 角 元 素 。 Æ ps =p, =p =0.95, 0 = 三 =0.9025 和 o3= 工 的 特殊 情况 下 ,系数 
的 方差 是 ; 


Fas + pA- A - 6), pyle: (9.1.52) 
= {3,8025,0.0975,0.0975 0.0025} (9.1.53) 

系数 方差 的 几何 平均 是 : 
at = (Jla) =- e)? = 0.0075 (9.1.54) 


如 果 所 期 望 的 比特 率 为 尺 =2bpp( 比 特 / 像 素 ) ,那么 应 用 公式 (9.1,43),4 个 系数 之 间 
的 最 佳 比特 分 配 是 : 


R, = |4.64,2,2, - 0.64) (9.1,55) 
应 用 公式 (9.1.44) 和 ez = CL an ,每 个 像素 的 平均 失真 是 : 
Dy. = Samm ~ 0)? = 0.0061 Et (9.1.56) 
如 果 直 接 量化 每 个 像素 ,那么 应 用 公式 (9.1.45) ,平均 失真 (假设 用 最 佳 量化 器 ) 是 : 
Day = Eann 0 2 = 0,0625 Eh nin (9.1.57) 
应 用 公式 (9.1.48) ,变换 编码 增益 是 ; 
Or = z = — = 10.25 (9.1.58) 
a; l-g 


注意 ,公式 (9.1.55) 中 的 最 佳 比特 分 配 假设 可 以 用 负数 个 比特 对 变量 编码 。 实 际 中 ， 
SR Ry = 0, 并 在 剩余 的 三 个 变量 之 问 重 新 分 配 总 的 比特 数 。 简 昔 的 解决 办 法 是 令 R, 

=4, 从 而 修改 后 的 比特 分 配 是 : 
R; = |4,2,2,0} (9.1.59) 
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在 这 种 情况 下 的 平均 失真 是 : 
Dy: = Ep Cassia g2 = 0.0074 Cherian (9.1.60) 
尽管 这 个 失真 比 公式 (9.1.56) 指 出 的 高 , 它 仍 比 PCM 可 以 达到 的 值 低 得 多 。 
9.1.6 最 佳 变换 设计 和 KLT 


正如 我 们 刚刚 说 明 的 ,通过 最 佳 比特 分 配 和 最 佳 标量 量化 , 变换 编码 产生 比 PCM 方法 低 
的 平均 失真 。 这 对 于 任何 西 谈 换 都 是 正确 的 。 那 么 自然 会 问 是 否 存 在 使 失真 D, 最 小 (或 等 
效 地 ,使 增益 Cr 最 大 ) 的 最 佳 变换 。 内 为 对 于 一 个 给 定 的 信 源 czo? 是 周 定 的 ,所 以 变换 应 该 
在 所 有 的 N x 站 酉 变换 中 产生 最 小 的 玫 何 平均 (11 €a) Y BARE, RREA 
型 的 ,回答 是 肯定 的 ,这 样 的 最 佳 变换 就 是 KLT。 

KLT 基 的 构造 ”对 于 KLT, 基 矢量 是 基于 原始 信号 [C], HUW BRITA, Oa, 和 
h 分 唱 表 示 [C], 的 第 志 个 特征 值 和 妇 一 化 特征 矢量 。 则 它们 满足 ; 

[Cl = Ad, 其 中 (由 ,页 ) = 8 

对 于 一 个 给 定 的 协 方差 年 阵 [C], ,KLT 是 用 # 作为 基 基 量 的 西 变换 ， 相 应 的 道 变换 矩阵 是 ， 











ED) = [8.81577 be] (9.1.61) 
MEJ 代 蔡 公式 (9.1.12) 中 的 [Y] ,我 们 得 到 ， 
g 
[C], = [P] "[C1 [0] = ® KARE EET (9.1.62) 
fr 
$f A 0 0 
H nee 
= * [AB oda Poy Ante] = ° i i ° (9.1.63) 
ey 0 0 ay 


也 就 是 说 ,KLT 使 [C], 对 角 化 。 而 且 第 到 ieee ee = Aye 
为 了 证 明 KLT 将 使 编码 失真 最 小 ,可 以 利用 不 等 式 : 
det[C], < i | èa (9.1.64) 
REN 


此 不 等 式 适用 于 对 角 项 为 ,的 任 倍 协 方差 矩阵 [C]。 另 一 方面 ,由 公式 (9,1.12) ,对 于 所 有 
的 再 变换 有 : 




















det[ Ci, = det[C], (9.1.65) 
央 此 ,对 于 任何 西 变换 ,我 们 有 : 
TI &, = dalc], (9.1,66) 
KEN 
但 对 于 KLT, 我 们 有 : 
ll dia = det[ C], = detfC], (9.1.67) 








这 样 ,在 任何 西安 换 中 ,KLT 产生 变换 系数 方差 的 最 小 由 何平。 此 ,如 果 信 源 是 高 斯 型 的 ， 
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则 它 使 变换 编码 增益 最 大 。 即 使 对 于 非 高 斯 型 的 信 源 ,通常 <: 因子 的 影响 可 以 忽略 ,从 而 可 
以 认为 KLT 是 最 佳 变换 。 

KLT 的 另 一 个 性 质 是 它 在 所 有 的 西 变换 中 用 < N 个 系数 得 到 最 小 的 近似 误差 ,这 里 误 
差 的 定义 与 公式 (9:1.16) 中 相同 。 换 言 之 ,我们 说 KLT 在 所 有 变换 中 具有 最 高 的 能 量 紧 缩 能 
力 。 这 是 因为 近似 误差 与 系数 方差 的 几何 平均 有 直接 的 联系 。 玫 何平 均 越 低 ,这 些 方差 的 分 
布 就 越 不 均匀 ,因此 ,能 够 紧缩 到 固定 数目 系数 上 的 能 量 就 越 多 。 

对 于 KLT 和 高 斯 信 源 ,我 们 有 : 
Dy = wa det[ C1,) "2" (9.1.68) 
回想 相关 高 斯 失 量 信 源 的 RD 界限 由 公式 (8.3.26) 给 出 。 因 此 ,由 变换 编码 可 以 达到 的 运算 
RD 函数 超过 了 由 常数 因子 cb。 = 2.71 可 达到 的 界限 。 

由 公式 (9.1.47) 和 (9.1.65) ,用 KLT 的 编码 增益 是 ， 


e a e o 


Cuar = qT, qia” q Lo Caley 


例 9.5 再 一 次 考虑 图 9.6 中 的 图 像 信 源 。 不 用 DCT, 而 是 采用 KLT。 由 任何 2x2 个 像素 组 
A ARE ZERIC], 由 公式 {9.1.49) 给 出 。 为 了 确定 KLT RM, RAIT 
需要 确定 [C], 的 特征 值 和 特征 矢量 。 特 征 值 由 求解 于 式 确定 ， 









































(9.1.69) 


det({€], - a[¥]) = 0 (9.1.70) 
对 于 每 个 特征 值 Xi ,我 们 可 以 通过 求 下 式 确 定 相应 的 特征 矢量 由: 
. (EC), -21D)$. = 0 (9.1.71) 
其 中 约束 上 名 上 ?=1。 对 于 ps = ps = 0104 = 0) 的 特殊 情况 ,所 得 到 的 特征 值 是 : 
Ap = 1+ pY, 0-0), -pp), (ple? 


FOIL EER 1g DA (9,152) ORE TAA a AP IL F K A feta A 9.4 中 用 DCT 所 得 到 

的 方差 相同 。 从 而 由 其 特征 矢量 组 成 的 KLT EE YK (9.1.51) h i DCT EEE 
AAD, MERE del Cl, = 11A 

在 这 个 特例 中 ,对 于 p 的 任何 值 DCT 都 等 于 KIT。 可 以 证 明 , 对 于 任意 的 一 阶 马 尔 可 

夫 过 程 , 它 的 KIT 基 函数 非常 类 似 DCT HH AK 1,6]. A, —H DCT 却 不 如 KIT 

有 效 。 

尽管 KLT 在 最 大 化 编码 增益 (或 等 份 地 ,能 量 紧缩 ) 方 面 和 信号 去 初 关 方 面 的 能 力 是 最 住 

的 ,但 它 仅 对 已 知 协 方差 矩阵 的 平稳 信 源 才 是 可 以 计算 的 。 实 际 上 , 信 源 可 以 在 时 间或 空间 上 

变化 ,所 以 必须 不 断 更 新 基于 前 面 信号 样 点 的 协 方差 拭 阵 并 重新 计算 特征 尔 量 ,计算 上 的 需求 

量 很 大 。 而 且 , 不 存在 从 任意 协 方差 矩阵 中 导出 KLT 的 快速 算法 。 此 ,对 于 实际 应 用 系统 ， 





























O 对 应 于 > AAs 的 特征 矢 员 的 解 不 是 惟一 的 。 例 如 , 另 一 组 解 是 : 


12 fF o 1⁄2 

` Ww 0 ~1Wd -12 
LPi = [pif] = 

zo 0 ‘NZ -12 

-Ui 0 12 
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希望 采用 独立 于 信号 的 宪 换 。 已 经 证 明 对 村 
内 此 ,DCT 已 在 图 像 编 码 中 取代 了 KUT: 


9.1.7 基于 DCT 的 图 像 编码 器 和 JPE 


前 面 几 节 已 经 介绍 了 
换 .量化 和 一 进 制 编码 。 到 革 前 为 止 的 分 析 中 ， 





量化 器 最 化 的 , 旦 量化 的 案 引 是 用 固定 长 编码 器 : 





码 的 联合 网 为 有 效 。 这 里 我 们 描述 一 种 典型 的 
[15,291 和 将 在 第 13 章 介绍 的 所 有 视频 编码 标 
每 个 阁 像 其 ,而 在 视频 编码 标准 中 , 它 应 用 于 当前 
的 块 之 间 的 善 值 。 有 时候 , 当 

给 定 一 幅 图 像 ,首先 把 它 分 成 8 x 8 ASEH 


通常 


测 | 不 正确 或 可 望 重 袁 预测 环 时 它 也 直接 应 用 于 原始 图 像 决 。 








像 信号 的 协 方差 所 阵 , DCT 非常 接近 KLT 





G 标准 


变换 编码 的 基本 原理 。 如 图 9.1 所 示 , 汇 换 编 公 器 出 三 部 分 组 成 : 变 


我 们 假设 每 个 系数 是 用 最 佳 的 概率 密度 函数 标量 
编码 的 。 但 实际 上 ,已 发 现 均 色 量化 和 可 变 长 编 
块 变换 编码 器 , 它 是 称 为 JPEGT 的 图 像 编码 标 
FE 的 基础 。 在 JPEG 标准 中 ,这 种 方法 直接 应 几 于 
前 视频 帧 的 原始 岁 像 块 与 基于 前 “个 视频 帧 预测 

















ERARI, Ae MAM DCT, ea 











YS AG a HL RK, tT ALEHA A R 


RAE KAE FRY ARE SY ORE BEARER DY 
AR IAA AIRA FAITE TOE BE SR SS 2 章 所 述 。 所 用 的 这 个 特殊 的 表 是 在 压缩 的 
特 流 的 开始 作为 附带 信息 指定 的 。 通常 对 亮度 和 色 度 分 量 用 木 同 的 才 。 


步 氏 ,在 -个 量化 表 中 规定 了 不 同系 数 的 步 长 。 


中 





一 个 在 JPEG 标准 





给 出 的 党 度 时 化 表 的 例子 如 图 
这 个 表 来 增加 或 减 小 步 长 ,以 


9.7 所 示 。 





代 蔡 如 所 给 出 的 那样 使 用 指定 的 表 ,我们 可 以 缩放 
区 达到 期 望 的 比特 率 。 缩 放 因子 在 JPEG 编码 器 中 称 为 质量 





内 


子 ,而 在 MPEG 和 HH 条 人 询 的 视频 编码 大 中 则 称 为 景 化 参数 (QP)。 
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9.7 
对 于 其 化 的 DOT 系数 的 二 进 制 编码 ,DCT 


数组 。 这 种 打 描 次 序 把 低频 系数 放 在 高 频 系数 前 面 。 因 


一 个 亮度 分 最 时 化 表 的 全 


子 [15,29] 











图 


系数 


按照 图 9.8 所 示 的 “Z" 形 顺序 被 排列 成 - - 维 


为 在 一 般 的 图 像 块 中 许多 量化 系数 是 








零 ,所 以 一 个 个 单独 地 确定 系数 值 是 效率 不 高 的 。 更 台 适 的 是 采用 游程 表示 , 它 以 DEH 


ib ARRIN SO, 
FDA RIS — MESA, 一 个 特殊 的 符号 


。 每 个 符号 由 丙 个 数组 成 :从 最 近 的 -个 非 零 值 算 起 零 的 个 数 ( 称 为 游 


FOB” TEIR ei- -个 非 零 值 之 后 ,用 来 指示 


E JPEG 标准 是 指 由 国际 标准 组 织 (ISO) 下 属 的 联合 图 像 专家 组 (JPPE) 建 议 的 静止 图像 上 销 的 国际 标准 。 


如 将 在 第 13 章 中 所 描述 的 ,在 视频 编码 中 所 用 的 游 


程 编码 方法 稍微 有 所 不 同 。 
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块 的 结束 。 图 9.9 示 出 了 如 何 将 一 个 8x 8 块 的 DCT 系数 转化 成 这 样 的 符号 的 个 例 了 。 理 
想 情 况 下 ,DC 值 和 这 些 符号 用 两 个 分 离 的 VIC 表 独 立地 进行 编码 。 为 了 避免 使 用 很 大 的 
VLC 肯 , 系 数值 的 动态 范围 被 分 割 为 车 十 段 。 非 零 系数 的 幅度 是 由 段 数 和 在 该 段 中 的 相对 值 


















































确定 的 。 对 于 DC 系数 , 段 数 是 基于 不 同 段 的 频数 被 哈 夫 曼 编 码 的 ,而 相对 幅度 是 用 固定 氏 的 
码 字 编 码 的 。 对 于 AC 系数 ,每 个 符号 被 进一步 分 成 两 部 分 :出 具有 非 零 值 段 数 的 替 游 程 织 成 
的 部 分 用 哈 夫 晕 编 码 ,而 非 零 值 的 相对 幅度 用 固定 长 编码 、VIC 表盘 常 是 基于 训练 数据 预先 












































设计 的 。 为 了 改善 编码 效率 ,可 以 使 用 算术 编码 代替 哈 夫 曼 编码 。 


= 






































|- 




















图 9.8 DCT 系数 的 “Z" 形 顺序 


DCTRE: 150023004060000100000 ..0] 
编码 符号: 5, (2.2), (0,3), (2.4), (6,1), EOB 





图 9.9 把 由"Z 形 扫描 得 到 的 64 个 量化 的 DCT 系数 转换 成 一 进 制 编码 符号 


当 上 述 方法 直接 用 于 原始 向 像 块 时 , 相 邻 块 的 DC 值 通常 是 相似 的 。 为 了 进一步 提高 编 
外 效率 ,一 个 块 的 DC 系数 ( 即 平均 值 ) 可 由 前 一 个 编码 块 的 DC 值 进行 预测 ,然后 用 刚才 介绍 
的 方法 对 DC 预测 误差 进行 量化 和 编码 。 这 样 , 图 9.9 中 的 值 *5” 实 际 上 表示 DC 预测 误差 。 
间 样 ,图 9.7 中 所 给 出 的 表 的 左上 角 的 步 长 实际 上 是 用 于 PC 预测 误差 的 。 对 于 彩色 图 像 , 伍 
个 彩色 分 量 可 以 用 这 种 方法 分 别 进行 编码 。 图 9.10 示 出 了 几 个 由 选 拌 不 同 质量 因子 得 到 的 
JPEG 编码 的 图 像 。 这 些 图 像 是 对 图 9.7 给 出 的 量化 表 进 行 缩放 并 使 用 标准 推荐 的 哈 夫 曼 表 
























































得 到 的 。 


9.1.8 矢量 变换 编码 





对 于 到 目前 为 止 所 讨论 的 变换 编码 ,我们 都 假设 对 变换 系数 进行 标量 量化 。 尽 管 可 以 对 
安 换 系数 应 用 矢量 量化 ,但 没有 比 SQ 明显 的 增益 ,因为 变换 系数 已 经 去 相关 了 。 进 .上 提高 


变换 编码 增益 的 方法 是 用 所 谓 的 矢量 变换 [22]。 这 种 变换 把 一 组 矢量 








# 点 转换 成 一 组 矢量 系 











数 , 然 后 对 每 个 系数 进行 矢量 量化 。 为 了 使 编码 效率 最 大 ,矢量 变换 应 该 在 一 个 矢量 系数 的 变 
量 内 引 人 相 关 性 ,但 去 除 相继 的 矢量 系数 的 相关 性 。 关 于 图 像 和 视频 编码 中 矢量 变换 及 其 应 


用 的 更 多 的 信息 ,读者 可 以 参考 Li 和 Zhang 的 综述 文章 [23]。 
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图 9.10 用 JPBG 算 法 在 不 同 的 比特 素 下 编码 的 图 像 。 左 上 图 是 
8 bpp 的 原始 图 像 ; 右 上 图 是 在 0.59 bpp 下 编码 的 ;左下 图 
是 在 0.37 bpp 下 编码 的 ;而 右 下 图 是 在 0.22 bpp 下 编码 的 


9.2 预测 编码 


除了 变换 编码 以 外 ,预测 编 玛 是 另外 一 种 重要 的 图 像 和 视频 编码 方法 。 事 实 上 ,采用 运动 
补偿 预测 的 时 间 预 测 编码 是 现代 视频 编码 标准 成 功 的 关键 。 我 们 以 预测 编码 的 综述 开始 本 节 
(9.2.1 节 )。 然 后 描述 如 何 设计 颈 测 器 使 预测 误 盖 最 小 化 ,并 导出 标量 量化 的 预测 编码 增益 
(9.2.2 节 )。 最 后 两 小 节 盖 述 如 何在 图 像 和 视频 编码 中 应 用 空间 和 时 间 预 测 (9.2.3 节 和 
9.2.4 节 )。 


9.2.1 概述 


在 预测 编码 中 ,不 是 对 一 个 像 家 直接 编码 ,而 是 由 同一 帜 或 前 一 帧 中 的 相 邻 像素 值 来 预测 
它 的 值 。 这 是 受 相 邻 像 紊 通常 有 类 似 的 彩色 值 这 一 实事 启发 ,因此 脱离 过 去 而 独立 地 确定 当 
前 值 是 比特 的 浪费 。 图 9.11 示 出 了 一 个 一 般 的 有 损 预测 编码 系统 的 编码 器 和 解码 器 方 框图 。 
在 编码 器 中 ,首先 由 存储 在 存储 器 中 的 几 个 先前 重建 的 样 点 来 预测 输入 样 点 ,然后 重 化 预测 误 
差 ,再 用 可 变 长 编码 器 编码 。 解 码 器 的 重建 值 是 预测 值 加 上 量化 的 误差 。 为 了 保证 编码 器 和 
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解码 器 使 用 完全 相同 的 预测 值 ,编码 器 必须 重复 与 解码 器 再 生 重建 样 点 同样 的 过 程 ,这 称 为 闭 
环 预测 。 这 种 类 型 的 编码 器 通常 称 为 差分 脉冲 编码 调制 (DPCM)m。 





E, [一 一 一 一 二 进 制 二 进 
- 其 化 器 | 一 | 编码 器 > 制 码 
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二 进 二 进 制 v A 
sa | pna | “| RHE > * 
A 
mae jH ewa 


解码 器 














BOIL -个 有 损 预测 编码 系统 的 编码 器 和 解码 器 方 框图 
当 预 测 误差 什 不 经 量化 而 直接 编码 时 ,该 系统 就 简化 为 无 损 预测 编码 ,这 对 于 要 求 无 失真 
地 存储 或 传输 原始 信号 的 应 用 系统 是 非常 有 用 的 。 
有 损 预 测 编码 器 的 误差 分 析 ”参考 图 9.11。 令 ， Als, 表示 原始 样 点 值 种 预测 样 点 值 ,而 
ess- s HG, 表示 原始 预测 误 芳和 量化 后 的 预测 误差。 令 。 表示 6 的 量化 误差 , 则 。 = 6, 
+ eo s 的 重建 值 是 ; 





5 =5,+625,4+0,-8=5-8, (9.2.1) 

FL, DR AS ES ARE e, = s - 4 = 6, ,与 预测 误差 的 量化 误差 完全 一 
样 。 于 是 对 于 网 定 的 报 测 器 ,一 个 有 损 预 测 编码 器 中 的 失真 完全 取决 于 预测 误差 的 量化 器 。 

为 设计 误差 量化 器 ,可 以 采用 第 8 章 中 讨论 的 各 种 量化 技术 。 因 为 误差 通常 具有 非 均 匀 
分 布 ,所 以 通常 使 用 关于 误差 信号 分 布 (通常 模型 为 零 均 值 拉 普 拉 斯 分 布 ) 优 化 的 非 均匀 量化 
器 。 为 改进 编码 效率 ,也 可 以 对 误差 信号 采用 矢量 量化 器 或 变换 编码 器 。 

影响 预测 编码 器 效率 的 关键 是 所 用 的 预测 器 。 由 8.5 节 可 知 , 在 给 定 比 特 率 人 情况 下 由 量 
化 器 引 和 人 的 失真 与 信号 的 方差 成 正比 ( 见 公式 (8.5.18))。 为 了 使 编码 效率 最 大 , 巴 测 器 应 该 
使 预测 误差 的 方差 为 最 小 。 如 何 没 计 预 测 器 以 达到 此 目的 是 下 一 小 他 的 主题 。 


9.2.2 最 佳 预测 器 设计 和 预测 编码 增益 


一 般 地 ,可 以 使 用 各 种 各 样 的 预测 器 ,线性 的 或 非 线性 的 。 但 在 实际 中 ,为 了 易于 实现 几 
平 无 例外 地 采用 线性 预测 器 。 令 s 表示 当前 像素 ,而 s (k = 1,2,，……, 天 ) 表 示 用 来 预测 so 的 前 
































名 传统 上 , 盾 沽 误差 被 均匀 最 化 ,然后 用 称 为 脉 神 编码 调制 的 幅度 调制 方法 传输 。 随 普 数 字 编 码 和 传输 技术 的 出 现 ， 
预测 误差 可 以 非 均匀 地 量化 ,可 以 使 用 各 种 可 变 长 编码 方法 ,并 月 可 以 用 不 同 数 宁 调制 技术 来 传输 二 进 制 比特 。 
FUH, DPCM 这 个 名 称 已 木 再 是 这 种 编码 方案 的 -个 准确 的 描述 。 
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面 的 像素 在 线性 预测 器 中 , so 的 需 测 值 描述 为 : 
s= = daw, (9.2.2) 


其 中 ,ex 称 为 预测 系数 。 用 于 预测 的 样 点 数 克 通 常 称 为 预测 器 的 阶 。 设计 预测 编码 器 的 关键 
问题 是 如 何 确定 这 些 系数 。 如 前 所 述 , 为 了 使 编码 效率 最 大 .应 该 使 预测 误 益 的 方差 (等 价 于 
顶 测 器 的 MSE) 最 小 。 设 $ 表示 对 应 wx 的 随机 变量 ,而 S, 表示 对 应 s, 的 随机 变量 ,这 个 误差 


SEMA: 


a = Bil S,- S, PI = F{|S,- Sa Sl} (9.2.3) 
KEMA A BOE MRE BUD. VORA Soa, =0 实现 ,由 此 得 到 : 
E{{ 5,- das }S,}=0, b= ;2 (9.2.4) 


FERRED ASR IE RE) STRA (MMSE) 佑 计 器 的 正 交 性 原理 。 它 指出 ,预测 误差 必 
须 与 每 个 用 来 项 测 的 过 去 的 样 点 正 交 。 令 RED SEIS, SERS, 5S, ZARE 
性 、 市 公式 (9.2.4) 可 以 容易 导出 如 下 -组 线性 方程， 





aa 2D) = RO = 1,2,.,K (9.2.5) 
kel 
或 用 先 阵 形式 ， 
R(1,1) R21) e REK,1) Te R(0,1) 
R12) RGD “ RCK 2) a - RC0,2) (9.2.6) 
RO,K) RO,K) = REK,K) La, R(O, K) 
或 
[R]a = r (9.2.7) 


这 个 求解 LMMSE 预测 器 的 方程 通常 称 为 万 里 -沃克 (Yule-Walker) 方 程 。 
由 公式 (9.2.7), 最 佳 预测 系数 居 ; 


a=(R]'r (9.2.8) 
这 个 项 测 器 的 MSE 是 : 
a =EN So- S,) Sol = R(0,0) -> ak( 4,0) (9.2.9) 
ta 
= R(O,0) -ra = R(0,0) - Rr (9.2.10) 


第 一 个 等 式 是 由 公式 (9.2.4) 的 止 交 性 诛 理 得 到 的 。 

对 于 平稳 信 源 ,像素 的 白 相 关 是 常数 ,与 它 的 空间 位 置 无 关 ; 也 就 是 说 , RCI.) = R(0,0)， 
1 = 1,2,…, 故 。 而 且 , 两 个 像素 之 间 的 相关 性 是 对 称 的 ; 即 RO, 1) = RGB). RE R ERE 
是 栅 测 矢 量 S，, =【S，,S ,,…, SV WARRE Mi r= EIS。GS 1 是 当前 像素 S。 458, 
ZAR TE, (PURE HER ft, S, = S (nef Bi — MERA TTS, = 
S(n- KES Cn AAT k PER RIT RUD = EIS (n- BS (n-DI=R(E-D, 
它 是 距离 b ~ 夺 的 两 个 样 点 之 问 的 相关 。 在 这 种 情况 下 ,矩阵 [R] 是 Toeplitz 的 ,同一 个 对 角 线 
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上 上 的 所 有 元 素 都 相等 , 并且 相 应 于 上 _: 角 和 下 -一角 的 线 是 相 皇 共 示 的 。 这 样 的 矩阵 可 以 用 菜 
SEAR - 德 宾 (Leviasom-Dudim) 算 法 进行 有 效 地 求 递 [30]。 如 果 信 源 是 二 维 的 , 失 阵 [R] 一 般 不 
会 有 记 此 好 的 结构 。 但 一 般 仅 用 有 限 数目 的 过 去 样 点 进行 预测 ,因为 两 个 像素 之 站 的 相关 随 
它们 距离 的 增加 而 迅速 碱 小 。 通 常 ,最 多 用 4 个 像素 (当前 像素 的 左 .、 上 、 左 上、 右上 ) 进 行 预 
W. 在 这 种 情况 下 .直接 求解 上 述 方程 是 一 件 很 容易 的 事情 。 

最 住 顶 测 器 的 这 个 解 假设 预测 值 s, 是 由 原始 的 过 去 样 点 s 得 到 的 。 在 有 损 预 测 编码 器 
中 ,必须 用 重建 的 过 去 样 点 % 代 换 % 。 理 想 情况 下 ,公式 (9.2.3) 中 的 误差 应 该 被 替换 为 ， 


a = Efi S,- Xa &,|"} (9.2.11) 











BAXS , 是 以 一 种 复杂 的 关系 依赖 于 预测 器 和 量化 器 ,所 以 求 使 这 个 误差 为 最 小 的 解 是 很 
难 的 。 实 际 上 ,我 们 简单 地 假设 量化 误差 是 可 以 忽略 的 ,并 卫 道 过 使 公式 ( 9.2.3) 中 的 误差 为 
最 小 来 设计 预测 器 。 

预测 编码 增益 与 变换 编码 -- 样 ,我 们 可 以 把 项 测 编码 对 POM 的 增益 定义 为 在 相同 比特 
率 下 由 这 两 种 编码 器 所 产生 的 失真 比 。 回 忆 对 于 预测 编码 ,被 量化 和 编码 的 是 顶 测 误差 , 且 原 
始 信和 号 的 失真 等 于 预测 误差 的 量化 误差 。 假 设 预测 误差 采用 最 伟 标 量 量 化 ,失真 与 码 率 的 关 
RH: 











Dons = Epa 2 7 (9.2.12) 
FLY, POFRE RRRA, H o2 是 预测 误差 的 方差 , 等 于 预测 器 的 MSE,、 另 — 
方面 .PCM 的 率 失 真 函 数 由 公式 (9.1.45) 给 出 。 因 此 ,预测 编码 增益 是 ， 


D Ea? 
Cow = TD = Ho .2.13 
mm (9.2.13) 


一 般 地 ,项 测 误差 o? 随 预测 器 阶 数 K 的 增加 而 减 小 。 
对 于 由 公式 (9.2.8) 给 出 的 LMMSE 预测 器 ,可 以 证 明 [19] , 当 项 测 器 的 阶 趋 于 无 穷 时 ,最 
小 预测 误差 与 信 尽 SCe™ ) 的 功率 谱 密度 (PSD)@ 的 关系 为 ; 
Chan = limo? = epf Ef tog,S(o) des} (9.2.14) 
比值 7, = 0? gala? 称 为 信号 的 谱 平 坦 度 测度 。 内 此 ,预测 编码 增益 与 谱 平坦 度 成 反比 。 这 是 
因为 共有 集中 的 窄带 谱 的 信和 号 更 易于 预 浏 。 具 有 平坦 谱 的 信号 ( 即 白 噪声 ) 是 不 可 预测 的 。 
可 以 证 明 公式 (9.2.14) 中 的 积分 可 以 写 为 : 









































uN 


m = lim( | J) (9.2.15) 
其 中 ,34 是 信号 的 Wb WEEN k 个 特征 值 2， 另 一 方面 ,信号 方差 等 于 ， 


= lim a (9.2.16) 
因此 , 当 K co nt 9 OCU She PSY ETT AREN: 





中 平稳 随机 序列 1S (a) HR PSD IE EW AXAR RCA) = EIS (eS Cre — EOP 
@ TTEA Ay = S Ce) EP wx 通常 是 区 间 ( - mr) EAE SPR, 
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Jim Geren = = — 





(9.2.17) 


它 等 于 当 变 换 长 度 N 趋 于 无 穷 时 用 KLT 可 以 达到 的 变换 编码 增益 ( 见 公式 (9.1.47))。 基 此 ， 
当 变换 长 度 和 扬 测 器 阶 数 都 趋 于 无 穷 时 ,这 两 种 方法 等 价 。 然 而 ,对 于 任何 有 限 的 ,长 度 为 
N 的 变换 编码 比 N 阶 着 测 编码 的 效率 低 [19]。 这 是 因为 长 度 为 N 的 变换 一 次 仅 涉及 六 个 样 
点 ,而 因为 后 环 预测 中 景 化 误差 的 反馈 ,任意 阶 的 预测 编码 器 都 具有 无 限 的 有 效 记 忆 。 





9.2.3 空间 域 线 性 预测 


Se 《mm) 表 示 一 个 视频 帧 。 在 空间 域 的 线性 预测 中 , 当前 像素 y (m,n) 是 由 它 的 过 去 











的 相 邻 像素 Y Che, 1). (k, D © Benn) TA AD, EH Bonny 表示 像素 (m,n) 的 








果 性 邻 域 。 如 果 


阔 (m,n) 之 间 的 相关 性 和 8B,， 中 的 每 个 像素 都 已 知 ,可 以 根据 公式 (9.2.6) 确 定 最 佳 巴 测 器 。 





例 9.6 再 一 次 考虑 图 9.6 所 示 的 图 像 信 源 。 这 一 次 用 预测 编码 器 , 它 由 s = 


(m,n -1)( 像 


È Cs = (m-1, aR B® 5 =¥ (m-1,n-1L) RE 4A) 来 预测 像素 so = 


六 (m,n) (像素 六 )。 在 这 种 情况 下 ,公式 (9.2.6) 简 化 为 : 


R(C,C) R(C,B) R(C,A)] |% RID, C) 
[eae RCB,B) mc] a, -sea 


R(A,C) RCA,B) R(A,A)4 La; RCD,A) 


1 p alfa Pa 
Po 1 oa|| az} = | o 
Pp a Lite, Pa 


Emppu p 的 特 珠 情况 下 ,最 佳 预测 器 是 : 





应 用 公式 (9.2.10), 这 个 预测 器 的 MSE 是 : 


a) 
o, = R(O,0) - [R(0,1) R(O,2) meas -PY 


ay 
对 于 由 =2 比特 的 最 佳 标 量 量化 ,量化 误差 是 ; 
D = Casein O32 = 0.000594 Cann 


相对 于 PCM 的 编码 增益 是 : 


o 1 
G = š ==; = 105.19 
DPCM a CT PP 了 


(9.2.18) 


(9.2.19) 


把 这 个 结果 与 例 9.4 和 例 9.5 PR AEA ,我 们 看 到 在 这 三 种 编码 时 都 涉及 2x2 像 
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素 块 的 方法 中 ,预测 编码 方法 的 效率 最 高 。 这 与 理论 结果 是 一 致 的 , 即 六 用 N 阶 预测 器 
的 预测 编 础 好 于 业 用 长 度 为 六 的 变 捷 的 变 拉 编码。 注意 ,理论 分 析 和 例子 都 假设 用 最 佳 
的 标量 量化 ,这 在 实际 中 可 能 是 不 能 实现 的 。 预 测 编码 的 主要 问题 是 ,编码 比特 流 中 影响 
章 个 样 点 的 传输 差错 可 能 导致 编码 器 与 解码 器 之 间 的 失 配 ,以 至 于 所 有 后 面 的 重建 样 点 
可 能 都 是 错 的 。 这 称 为 误 码 扩散 效应 。 传 输 误 码 对 编码 比特 流 的 影响 以 及 防止 或 抑制 这 
种 效应 的 机 制 将 在 第 14 章 中 讨论 。 
注意 ,空间 预测 不 仅 可 以 应 用 于 原始 像素 值 ,也 可 以 应 用 于 实 换 系数 。 例 如 ,在 块 变换 编 
码 器 中 , 相 邻 块 的 DC 系数 ( 即 均值 ) 时 常 是 相似 的 ,我 们 可 以 由 当前 块 的 上 方 和 左 侧 的 块 的 
DC 秆 来 预测 当前 央 的 DC 值 。 在 9.1.7 节 讨 论 的 JPEG 图 像 编码 标准 中 ,是 用 左 侧 块 的 DC 值 
预测 的 。 通 常 , 相 邻 块 的 AC 系数 之 闻 的 相关 性 不 足以 保证 预测 之 用 。 
在 采用 小 波 变换 (第 11 章 ) 的 编码 器 中 , 相 司 空间 位 置 代 不 同 尺度 的 系数 时 常 是 相关 的 。 
此 ,可 以 在 这 些 系 数 之 间 进行 预测 。 在 那里 ,经 常 使 用 一 种 非 线性 预测 器 ,不 是 预测 实际 的 
系数 值 ,而 是 由 较 粗 尺度 中 非 零 系数 的 位 置 预 测 较 细 尺 度 中 非 零 系数 的 位 置 。 


9.2.4 运动 补偿 时 间 预 测 


单 向 时 间 预 测 ”除了 在 帧 内 应 用 预测 外 ,当前 帧 的 像素 值 也 可 以 由 它 所 对 应 的 前 一 帧 的 
像素 进行 预测 。 令 % (x, 2) 表示 第 WER x 的 像素 值 ,并 且 令 +_ 表示 前 一 帧 的 时 刻 。 则 预 
测 过程 描 述 为 : 














Vat) = V(x) (9.2.20) 
这 称 为 线性 时 间 预 测 。 仅 当场 景 静 止 时 ,这 样 的 项 测 才 是 有 效 的 。 在 一 个 真实 世界 的 视频 中 ,场景 
中 的 物体 以 及 摄像 机 通常 都 是 运动 的 ,使 得 两 个 相 邻 帕 中 相同 空间 位 置 的 像 察 可 能 有 非常 不 同 的 
值 。 在 这 种 情况 下 ,运动 补偿 预测 (MCP,motion- compensated prediction) 更 适用 , 它 用 下 式 预 测 : 
W (et) = Y (x+ d(x), ¢_) (9.2.21) 
共 中 ,q(x) 表 示 像 素 x 从 时 刻 1 到 1:_ 的 运动 失 量 。 用 第 6 章 介绍 的 术语 , 帧 : 是 锚 定 帧 , 帧 1 
十 目标 巾 。 在 视频 编码 著作 中 , 帧 ;_ 通常 称 为 参考 帧 , 帧 e 称 为 编码 帧 或 当前 帧 ,而 y p (x,1) 
称 为 预测 帧 。 参 考 帧 必须 在 编码 帧 之 前 被 编码 并 重建 。 
在 使 用 MCP 的 编码 器 中 ,必须 确定 MV 和 预测 误差 。 很 明显 ,如 果 在 每 个 像素 上 确定 MV 
PUG REE ,就 不 得 不 使 用 比 确定 每 个 像素 的 原始 像素 值 更 多 的 比特 。 在 实际 编码 器 中 ,用 
更 紧凑 的 运动 表示 来 降低 送 动 编码 的 比特 率 。 一 种 流行 的 视频 编码 方法 是 采用 基于 块 的 运动 
表示 ,而 每 个 块 仅 编码 一 个 MV( 我 们 将 在 9.3 节 中 讨论 基于 块 的 视频 编码 器 )。 
到 目前 为 止 所 介绍 的 时 间 预 测 器 仅 使 用 前 一 帧 的 一 个 像素 。 这 个 限制 主要 是 由 于 实际 实 
现 的 约束 造成 的 ,存储 多 于 一 个 的 前 面 的 帧 经 常 成 本 太 高 。 然 而 ,理论 上 来 讲 , 使 用 多 个 前 面 
的 帧 的 像素 可 以 提高 预测 精度 。 在 这 种 情况 下 , 仍 可 以 用 公式 (9.2.6) 中 所 给 出 的 最 佳 预测 器 
设计 解决 方案 ,以 确定 与 前 面 各 个 像素 有 关 的 预测 器 系数 。 
双向 时 间 预 测 ”事实 上 ,不 需要 预测 器 只 依赖 于 前 面 的 帧 。 在 双向 时 间 预 测 中 , 当前 帧 的 
像素 是 由 前 一 帧 !- 的 一 个 像素 以 及 后 -- 帧 :, 的 一 个 像素 项 测 的 。 帆 上 的 预测 值 拱 述 为 ， 
¥ (x,t) = a W(x+d Wt) +a, Y (x+ d (x),4,) (9.2.22) 
其 中 ,d GOA d (x) 分 别 表示 x 从 :到 :_ 和 从 41 到 4, 的 运动 矢量 (MY)。 一 般 , 我 们 称 由 前 
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面 的 (: -< t) 参 考 帧 预测 当前 帧 为 前 向 运动 补偿 ,而 称 由 未 来 的 (1:, > s) 参 考 帧 预测 当前 帧 为 
后 向 运动 补偿 D。 理 想 情况 下 ,应 该 用 公式 (9.2.6) 所 给 出 的 最 佳 预测 器 解 来 确定 系数 a 和 
a, ,这 要 求 已 知 在 所 涉及 的 三 巾 中 对 应 像素 之 间 的 相关 性 。 实 际 上 ,它们 通常 是 试探 地 选择 
的 。 为 了 使 预测 值 具有 与 原始 值 一 样 的 均值 ,它们 被 选择 为 使 a_ +a, =1。 

当 编码 帧 中 有 被 物体 运动 露出 的 区 域 时 ,采用 双向 时 间 预 测 可 能 是 非常 有 益 的 。 这 样 的 
区 域 在 前 一 帧 没有 对 应 的 区 域 ,只 在 后 一 帧 有 对 应 的 区 域 。 例 如 ,如 果 回 过 头 去 看 图 5.12, 可 
以 着 出 在 帧 上 +1 露出 的 背景 在 帧 正中 没有 对 庶 的 背景 ,但 将 在 帧 大 +2 中 有 对 应 的 背景 。 预 
测 系数 o 和 a, 通常 是 基于 预测 精度 调节 的 。 在 刚才 考虑 的 例子 中 , 可 以 选择 a = 0， 
a, =le HFE e AIW e, 中 都 可 以 找到 对 应 时 ,一 个 好 的 选择 是 a. =a, = 0.5。 与 单 向 预 
浏 一 样 ,可 以 在 块 级 进行 双向 预测 ,所 以 对 于 一 个 块 只 须 确定 两 个 MV。 

注意 ,使 用 双向 预测 需要 用 不 同 于 原 时 间 顺 序 的 一 个 顺序 来 进行 帧 的 编码 。 例 如 ,可 以 首 
先 用 单 向 预测 仅 用 过 去 的 编码 慎 来 编码 一 个 帧 的 子 集 ,然后 再 用 双向 预测 编码 其 余 的 帧 。 这 
种 类 型 的 脱 寅 顺序 编码 如 图 9.12 所 示 。 尽 管 双 向 预测 可 以 提高 预测 精度 和 编码 效率 ,但 它 会 
引 和 人 编码 延迟 ,所 以 一 般 在 实时 应 用 系统 中 (例如 视频 电话 或 视频 会 议 ) 是 不 用 的 。 例 如 ,用 于 
交互 式 通信 的 .261/H.263 标准 仅 用 单 向 预测 和 有 限制 的 双向 预测 ( 称 为 PB 模式 )。 然 而 主 
要 用 于 视频 发 布 的 MPEG 标准 系列 既 采 用 单 向 预测 也 采用 双向 预测 。 
























































编码 顺序 : 1 423756 


图 9.12 采用 单 向 和 双向 时 间 预 测 的 视频 编码 。 迄 头 指示 
用 于 预测 编码 帧 的 参考 帧 。 标 号 为 I,P AB a 
分 别 是 不 用 先 测 、 用 单 向 预测 和 用 双向 预测 编码 的 


9.3 采用 时 间 预 测 和 变换 编码 的 视频 编码 


一 种 流行 的 和 有 效 的 视频 编码 方法 是 用 基于 块 的 时 间 预 测 和 变换 编码 。 这 个 方法 实际 上 
是 所 有 国际 视频 编码 标准 的 核心 。 在 本 节 中 ,我 们 首先 给 出 这 种 编码 方法 的 综述 (9.3.1 节 )。 
蜂 妥 着 是 对 它 的 一 个 扩展 ,使 用 更 复杂 的 运动 补偿 预测 (9.3.2 节 ) 。 接 下 来 我 们 考虑 在 由 应 




















全 ”这 些 不 应 该 与 6.2 节 中 所 定 久 的 后 向 和 前 向 运动 估计 相 泥 清 。 
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用 所 提出 的 码 率 约束 下 如 何 选择 这 种 编码 方法 中 的 各 种 编码 参数 ,以 便 使 编码 效率 最 大 化 的 
问题 (9.3.3 及 9.3.4 节 )。 作 为 可 选 的 先进 课题 ,我 们 分 析 运 动 估计 精度 和 环形 滤波 对 编码 效 
率 的 影响 (9.3.5 节 )- 


9.3.1 基于 块 的 混合 视频 编码 


在 这 种 编 但 器 中 ,每 个 视频 帧 被 分 成 固定 大 小 的 块 , 且 每 个 块 或 多 或 少 地 独立 地 进行 处 
理 , 因 此 称 为 “基于 块 的 "、 “混合 "这 个 词 意 味 着 每 个 块 是 联合 运用 运动 补偿 时 间 预 测 和 变换 
编码 进行 编码 的 。 图 9.13 给 出 了 这 种 编码 范例 中 的 关键 步骤 。 首 先 ,用 基于 块 的 运动 估计 由 
前 面 已 编码 的 参考 帧 对 块 进行 顶 测 。 运 动 和 撩 其 确定 当前 块 和 最 佳 匹配 块 之 辣 的 位 移 。 预 测 块 
是 由 前 面 的 帧 基于 估计 的 MY 用 运动 补偿 0 获得 的 。 然 后 ,用 DCT 对 预测 误差 块 进行 变换 @， 
量化 DCT 系数, 并 用 可 变 长 编码 把 它们 转化 成 一 进 制 码 字 。 实 际 的 编码 方法 在 原则 上 类 似 于 
9.1.7 节 中 所 描述 的 。 与 JPEG 标准 一 样 ,DCT 系数 的 量化 起 由 一 个 量化 参数 控制 的 , 它 对 预 
先 定义 的 景 化 表 进 行 缩放 。 各 种 视频 编码 标准 所 使 用 的 量化 表 、 量 化 器 实现 和 游程 编码 方法 
将 在 第 13 章 描述 。 注 意 , 编 色 器 必须 仿效 解码 器 的 操作 以 导出 与 解码 器 一 样 的 重建 帧 ,从 而 
在 用 十 预测 的 参考 帧 之 间 不 会 失 配 。 
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图 9.13 在 : 个 典型 的 基于 所 的 混 全 编码 系统 中 块 的 编码 和 解码 过 程 








解码 器 


D EE SAME” (EAE BAI RBA PAHE A aia AM Ea, 
d Pag SFR BOSE HE AB E BE RE, TT LA RAREN. AR MBEE , 基 
于 坎 的 运动 模型 的 使 用 经 常 导 臻 结构 化 的 误差 模式 。 使 用 变换 编码 是 为 了 利用 误差 像素 之 间 的 相关 性 。 
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上 述 讨论 假设 时 间 预 测 是 成 功 的 ,预测 误差 块 要 求 用 比 原 始 网 像 块 少 的 比特 进行 编码 。 
这 种 编 色 方法 称 为 尸 模式 ， 当 情况 不 足 如 此 时 ,原始 块 将 直接 用 变换 编码 进行 编码 。 这 称 为 
帧 内 模式 。 可 以 把 用 单个 参考 帧 预测 搞 成 双向 预测 , 它 要 找 两 个 最 佳 的 匹配 块 ,一 个 在 前 面 的 
帧 中 , 另 一 个 在 后 看 的 帧 中 ,县 用 这 两 个 匹配 英 的 加 权 平 均 作 为 当前 块 的 预测 。 在 这 种 情况 
下 ,两 个 MY 与 每 个 央 都 有 联系 、 这 称 为 8 模式 。P 和 8B 模式 一 般 称 为 帧 间 模 式 。 模 式 信息 
和 MV 以 及 其 他 的 关于 图 像 格 式 的 辅助 信息 、 块 位 置 等 也 用 VIC 编码 。 
实际 上 ,用 于 运动 估计 的 块 大 小 可 能 与 用 于 变换 编 但 的 不 PE, 一般 ,运动 估计 是 在 -个 
较 大 的 块 ( 称 为 宏 块 ) 上 进行 的 , 宏 块 (MB) 被 进 -- 步 分 成 几 个 块 ,对 这 些 块 求 DCT 的 值 。 例 如 ， 
在 大 多 数 视频 编码 标准 中 , 宏 块 的 大 小 是 16 x 16 个 像素 ,而 每 个 块 的 大 小 是 8x8 个 像素 。 如 
果 彩 色 亚 采 样 格 式 是 4:2;0, 那 么 每 个 宏 抉 由 4 个 Y 块 | 个 Cb 块 和 1 个 Cr 块 组 成 。 编 码 模 
式 ( 即 帧 内 或 帧 阅 模式 ) 是 在 宏 快 水 平 上 确定 的 。 因 为 相 都 的 宏 丑 或 块 的 MV 和 DC 系数 通常 
是 类 似 的 ,所 以 一 般 用 前 一 个 宏 块 或 块 的 MY 和 DC 系数 作为 预测 的 值 来 对 它们 进行 预测 编 
io EF 13 章 中 描述 的 所 有 祝 频 编码 慰 准 中 , 洛 于 个 宏 块 形成 一 个 块 组 (GO0B) 或 一 个 片 , 几 
个 块 组 或 片 形成 一 由 图 像 。 在 不 同 的 视频 编码 标准 和 图 人 尺寸 中 , 块 组 和 片 的 大 小 和 形状 是 
不 同 的 ,经 常 是 为 应 用 的 需要 而 特制 的 。MY 和 DC 系数 的 疝 测 通常 限制 在 问 一 个 块 组 或 片 
内 ， 内 此 ,为 块 组 中 第 一 个 宏 块 或 块 预测 的 MY 或 DC 值 被 置 为 某 个 默认 值 。 这 是 为 了 当 压 缩 
的 比特 流 因 传输 或 仓储 差错 而 损坏 时 搞 制 误 码 扩散 。 
-个 帧 能 够 以 四 内 模式 整个 地 进行 编码 ,这 样 的 帧 称 为 内 帧 或 1 帧 。 序 列 中 的 第 一 个 帧 
总 是 作 为 内 帧 进行 编码 的 。 在 采用 高 比特 率 或 具有 松弛 的 实时 约束 的 应 用 系统 中 ,也 周期 地 
使 用 内 帧 以 阳 止 潜在 的 误 码 扩散 ,并 使 随机 访问 成 为 可 能 。( 低 等 待 时间 的 应 用 系统 ,如 视频 
会 议 , 不 能 用 这 样 的 周期 刷新 ,因为 来 自 内 由 的 比特 数 通常 比 预测 帧 的 大 得 多 ,这 将 引起 传输 
数据 的 突然 已 消 。)P 帧 仅 用 过 去 的 帧 进行 预测 ,取决 于 预测 精 炭 ,一 个 宏 块 既 可 以 用 帧 内 模式 
也 可 以 用 P 模 式 进行 编码 ,这 通常 是 基于 预 浏 误差 决定 的 。 最 后 ,8 帧 采用 双向 预测 ,而 B 帧 
中 的 安 块 可 以 用 帧 内 模式 .P 或 BB 模式 进行 编码 。B 帧 只 能 在 周围 的 1 慎 或 P 帧 编码 之 后 进行 
编码 ( 见 图 9.12)。P 帧 和 B 幅 二 者 道 常 都 称 为 间 帧 : 
在 MPEG-1 和 MPRG-2 标准 中 ,把 帧 被 划分 成 图 像 组 (GOP) ,而 每 个 图 像 组 以 1 幢 开 始 ,后 
银 交 织 的 P 帧 和 B 帧 (具有 代表 性 的 图 像 组 如 图 9.12 所 示 )。 这 使 随机 访问 成 为 可 能 ;可 以 访 
问 任 何 向 像 组 而 不 需 对 前 面 的 图 像 组 解码 。 图 像 组 结构 也 允许 恢 进 和 快 倒 : 仅 解码 ath 
45 I 和 P 帧 就 可 以 实现 快 进 。 以 向 后 的 顺序 仅 解码 [ 帧 就 可 以 实现 快 倒 。 


9.3.2 重合 块 运动 补偿 


在 本 小 节 和 下 小 节 中 ,为 了 符号 的 简化 ,我 们 不 是 指定 视频 函数 中 的 时 间 察 引 而 是 用 
Y (水 :0 和 yn(x) 分 别 表示 编码 帧 .参考 帧 和 了 预测 帧 。 在 基于 块 的 运动 补偿 中 , 块 中 的 每 
个 像素 用 参考 帧 中 的 一 个 像素 通过 下 式 预测 : 
¥ (x) = ¥ (xed,), x€8, (9.3.1) 
此 中 ,由 ERRE, 的 MY ， 当 d, 不 是 整数 时 ,需要 内 插 得 到 w , (x + da). 如 前 所 述 , 当 佑 计 
的 MY 不 准确 或 当 块 平移 模型 不 适用 时 ,预测 图 像 将 受到 方块 效应 的 损害 。 上 月 前 已 采用 了 两 
种 方法 来 克服 这 个 问题 。 一 个 是 与 邻 块 的 运动 估计 相 结合 以 产生 给 定 像素 的 预测 值 , 另 - -个 
是 对 预测 图 像 进行 滤波 。 在 本 节 中 讨论 第 -种 方法 ,在 9.3.5 节 中 讨论 滤波 方法 。 
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对 于 重 营 块 运动 补偿 (OBMC)[25,26] ,一 个 像素 的 预测 不 仅 基 于 它 所 属 块 的 MY 估计 ,而 
且 还 基于 其 相 邻 块 的 MY ,如 图 9.14 所 示 。 令 六 是 所 考虑 的 相 邻 块 的 总 数 ,并 令 5。: 和 au，， 
REK = 10,1,2,…, KIRKE k MERRIER MV, AB = Ba ,do =O, 0 预测 值 由 下 式 确 定 : 














¥ (x) = 2 hhx) Y(X + dpa) XE Ba (9.3.2) 


系数 及 (x) 可 以 认为 是 分 配给 基于 ds 的 估计 值 的 权重 。 直 觉 上 ,对 于 给 定 的 x, ha OORA 
x%* 到 65.4 的 中 心 位 置 的 距离 成 反比 。 例 如 ,对 于 图 9.14 中 所 夯 出 的 邻 域 ,对 于 % ,di 和 dw. 的 
权重 应 该 比 :和 dn ,的 大 。 












































几 9.14 一 个 用 四 个 邻 抉 进行 重 普 块 运动 补偿 的 例子 


从 估计 理论 的 观点 来 看 ,公式 (9.3.2) 中 的 预测 器 可 以 解释 为 给 定 现 测 ,(x dn) RAE 

TY (x) 的 一 个 线性 估计 荐 。 对 于 给 定 的 x, 最 佳 估计 器 h(x) = [h(x), REC] 可 以 通过 使 均 
方 预 测 误差 : 
E{|¥ (x) -Bx + da) | (9.3.3) 


为 最 小 来 确定 。 为 了 保持 千 计 图 像 的 均值 ,必须 约束 权重 ,使 得 ; 


2 h(x) = 1 
Ék 
PEA H RTEA MAR AHNA h, i: 


PIR) 'rCx) =1)) 
PIRO) i 


其 中 ,i 是 所 有 元 素 等 于 1 的 大 维 列 矢量 ,[R(x)] 和 r(x) HSE Bl SER AI AECL HL 
TRH: 











h(x) = [RW] {ro - (9.3.4) 
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Ra) = EW (x4 dpa) YOX + dp i k,l EK 
n(x) = El OY (xed, ik ER 
可 以 用 这 个 解 为 块 中 的 每 个 像素 x 导出 各 个 邻 拓 MV 的 权重 。 上述 公式 中 的 数学 期 望 是 
就 图 像 亮 度 和 运动 的 不 确定 性 而 论 的 。 上 述 统 计量 可 以 由 实际 视频 数据 估计 。 如 符号 所 表示 
的 ,它们 一 条 是 空间 变化 的 。 然 而 ,假设 y (x) 是 平稳 的 ,这 些 统计 量 就 仅 取 决 于 块 中 像素 的 柑 
对 位 妖 , 不 取决 于 相对 于 整 幅 图 像 的 绝对 位 置 。 如 果 像素 之 问 的 相关 是 对 称 的 , 邦 么 解 h O 
也 是 对 称 的 ,从 而 只 需要 确定 堪 上 方 114 块 中 像素 的 解 。 
一 般 情 况 下 ,OBMC 可 以 用 寺 由 任何 方法 估计 的 块 MY, LSE TRAY IRD AEC BMA) #8 
iit Ra ATT EAE] OBMC 实 项 的 , 则 可 以 进一步 减少 硕 测 凑 差 。 理 想 情况 下 ,应 该 全 
以 下 修正 的 MCP 误差 最 小 化 : 
Dole Gd - SFO) oO da) |” (9.3.5) 
F BER 


FARE RRT E RREY MV ,所 以 不 能 像 BMA 那样 一 次 求 个 块 的 MY。 一 种 方法 起 
选 代 地 进行 运动 估计 和 OBMC[26] 首先 ,用 传统 的 BMA 生成 -个 MY 的 初始 集 , 这 里 ,预测 
误差 是 假设 把 公式 (9.3.1) 用 上 MCP 而 计算 的 。 然 后 ,用 这 些 运动 估计 进行 重 普 块 运动 补偿 。 
在 下 -- 次 迁 代 中 ,对 于 每 个 块 , 道 过 使 公式 (9.,3.5) 中 给 出 的 误 共 为 最 小 来 估计 MV, 这 里 ,假设 
ABABA MV 与 前 一 次 近代 中 所 得 到 的 一 样 。 

若 不 用 和 迭代 ,一 种 较 简单 的 方法 是 当 用 BMA 计算 预测 误差 时 ,对 当前 块 以 及 相 邻 医 的 像 
素 加 不 相等 的 权重 。 为 了 确定 适当 的 权重 函数 ,应 该 注意 当 进 行 OBMC WS, IRB, 的 运动 矢量 
d, 不 仪 影响 本 块 , 也 影响 它 的 相 邻 块 Bes。 央 为 d IAB na PIRR x EAR BE 有 h(x) 加权 ,所 
以 我 们 可 以 使 以 下 误差 最 小 化 : 









































Pe, 1¥ (x) 8 (x + dy) PACS) (9.3.6) 
BB = UiekBni 是 包 揪 当 前 块 Bo 及 其 邻 块 B。 RE K 的 超 块 , 则 这 个 误差 叮 以 重 杞 为 ， 
0 -0 0) 9.3.7) 
xB 





其 中 BEB ACK) AG Ay (xX) AK. PA, EE 9.14 2, A(x) = 有 (有 (Cx) = hy (mm) AO) 


= hy (i) A Ce) = A, Oto) AA OK) = An (my) 公式 (9.3.7) 中 的 误差 是 在 超 块 及 上 的 一 个 加 权 
的 MCP IRE, HBAR htx) 是 原始 权重 系数 各 (x) 的 一 个 重新 排列 。 由 Orchard 和 Sullivan 
[26] 确定 的 最 住 的 窗 函 数 示 寺 图 9.15。 
试验 结果 表明 当 OBM( 与 标准 BMA 相 结合 时 ,用 OBMC 可 以 提高 总 浏 图 像 质 量 达 1 dB 
当 应 用 选 代 运 动 估计 时 ,可 以 取得 2 db 的 改善 [26]、 由 于 显 苦 地 收 善 预 测 精度 ,OBMC 已 作为 
-个 先进 选项 加 入 ITU - T H.263 视频 编码 标准 中 。 该 标准 使 用 图 9.14 所 示 的 四 部 域 结 构 ， 
但 对 每 个 给 定 的 像素 仅 隔 个 邻 域 具有 非 零 权重 。 用 于 该 标准 的 为 便于 快速 计算 [17] 而 选择 的 
权重 系数 h(x) 示 于 图 9.16。 等 价 的 窗 函 数 有 (x) 如 图 9.17 所 示 .、 
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图 9.15 由 Orchard 和 Sullivan 确定 的 OBMC 的 最 佳 窗 函 数 
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(a) (by ) 

图 9.16 在 1.263 视频 编码 标准 中 [13] 规 定 的 OBMC 的 权重 系数 :(a) 用 于 由 当前 挨 运 动 


矢量 进行 预测 ;(b) 用 于 由 当前 块 的 上 方 或 下 方块 的 运动 估量 进行 预测 ;(c) 用 于 
由 当前 块 的 左边 或 右边 块 的 运动 矢 其 进行 需 测 。 给 出 的 数字 是 8x 实际 权重 。 
例如 ,要 预测 块 的 左上 角 的 像素 ,与 当前 MB、 上 方 MB. 左边 MB 的 MY 相关 联 的 
















































































权重 分 别 是 48,218 和 218。 对 于 位 于 第 一 行 和 第 二 列 的 像素 ,权重 分 别 是 548,218,18 
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图 9.17 对 应 于 图 9. 16 中 给 出 的 权重 系数 的 窗 函 数 
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9.3.3 编码 参数 选择 


在 9.3.1 节 中 所 描述 的 混合 编码 器 中 ,编码 器 必须 做 出 多 种 选 芭 ,包括 在 一 个 帧 间 编 码 帆 
中 和 伍 个 宏 块 所 用 的 模式 ,每 个 宏 抉 的 OP J ahh TE EAT SRC IN, AAR LA Mh 
搜索 范围 ) ,等 等 。 这 些 编码 参数 的 每 一 种 组 合 都 会 产生 编码 视频 的 总 码 率 与 失真 之 间 不 同 的 
拆 中。 在 本 小 节 中 ,我 们 讨论 如 何 选择 这 些 参数 的 问题 。 
在 混合 编码 的 早期 发 展 中 ,这 些 决策 道 常 是 启发 式 做 出 的 。 例 如 ,在 帧 问 编 但 图 像 中 , 基 
于 宏 块 本 身 的 方差 of 和 运动 补偿 误差 的 方差 DIRE LEB IL FE LR HL 
HRAD, MRE ot col, + 6 那么 就 选择 帧 内 模式 而 不 选择 帧 间 模 式 。 这 种 启发 式 决策 
源 于 下 述 观 点 :在 给 定 的 失真 下 一 个 块 编码 所 需要 的 比特 数 与 央 的 方差 成 正比 。 加 入 正 的 党 
B o 是 为 了 把 帧 问 模式 中 运动 矢量 编 友 所 需要 的 附加 比特 数 计算 在 内。 

为 了 改善 性 能 ,不 同 参数 之 问 的 选择 可 以 由 率 失真 最 优化 方法 确定 。 这 里 ,采用 不 同 参数 
质 天 要 的 比特 以 及 产生 的 失真 (例如 ,MSE) , 足 通过 用 这 些 参数 没 置 对 信 湾 实际 地 进行 编 但 网 
定 的 ， 在 码 率 与 失真 之 间 产 生 最 佳 折 中 的 设 嘻 被 随 之 选 定 、- . 般 , 存 在 编码 序列 平均 得 率 的 
约 来 ,问题 尾 了 找 只 有 最 小 失真 同时 满足 码 举 约束 的 参数 设置 。 这 个 有 约束 的 最 优化 问题 可 
以 用 拉 属 朋 日 乘 子 法 [7] 或 动态 编程 法 [2] 解 决 。 

让 我 们 考 详 一 个 对 一 帧 中 的 所 有 宏 块 确定 编码 模式 的 例子 ,假设 所 有 其 他 的 选项 是 同 定 
的 ,并 及 整个 帧 所 期 望 的 比特 数 是 Rao FI D, (m ) 表 东 第 n 个 宏 块 采 用 模式 m, 时 的 大 真 ， 
Re Cong, 和) 表示 所 需要 的 比特 数 。R, 依赖 于 其 他 宏 块 的 编码 模式 的 亡 因 在 于 运动 矢 基 和 
DC 系数 是 由 信 决 进行 预测 编码 的 。 这 个 问题 是 : 

最 小 化 SD, (m,) 










































































条 件 是 DIR, (Cm Yi) s Ri (9.3.8) 
用 拉 格 阅 日 乘 子 法 ,这 个 问题 转化 为 : 
最 小 化 Jimy.) = 2D, (m) HADOR, Ones Y) (9.3.9) 
其 中 ,4 必须 满足 码 率 约束 。 





严格 地 讲 , 不 同 宏 块 的 最 住 编码 模式 是 相生 依赖 的 。 为 了 易于 理解 基本 概念 ,让 我 们 钨 略 
PR R, 对 其 他 宏 块 编码 模式 的 依赖 性 ;也 就 是 说 ,我 们 假设 R, Om, Yh) = R Cm) WAR 
个 宏 块 的 编码 模式 可 以 通过 使 下 式 最 小 化 单独 地 确定 : 

J.(m,) = DCm,) + AR, (m,) (9.3.10) 
如 果 仅 有 少数 几 个 模式 可 供 选择 ,那么 本 以 通过 穷尽 搜索 为 每 个 块 寻找 最 侍 模 式 。 

注意 ,如 果 m (从 而 R ) 是 连续 变量 ,那么 最 小 化 J, BRE OCP BEB JOR, = 0, 这 将 导 臻 

9D,19R = ~4。 这 意味 每 个 安 块 的 最 佳 模式 是 在 不 同 的 宏 块 中 六 生 相同 的 RD RRID, JOR, 


O 实际 上 ,为 了 三 少 计算 最 ,经 常用 每 个 像素 值 ( 永 妖 的 或 预测 误 莽 ) 与 抉 的 均值 的 绝对 差 之 和 米 代 基 方 基 ， 
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的 那个 模式 了 。 实 际 上 , 仅 有 有 限 的 模式 可 供 逃 择 。 每 种 可 能 的 模式 都 在 分 段 线性 的 RD 曲线 
[对 应 一 个 工作 点 ,从 而 每 种 模式 都 与 一 个 RD 斜率 范围 有 关 。 对 于 给 定 的 4, 通 过 最 小 化 
J, Um, ) 找 到 的 不 同 宏 块 的 最 佳 模式 在 它们 的 RD 斜率 中 将 具有 相似 的 范围 。 

不 同 的 宏 块 应 该 征 作 在 相同 的 RD 斜率 上 ,这 个 结果 是 涉及 参数 的 多 重 独立 编码 的 各 种 
RD 最 优化 问题 的 - .种 特殊 情况 。 回 想 在 变换 编码 (9.1.5 节 ) 的 比特 分 配 问题 中 ,最 佳 解 是 使 
不 同系 数 的 RD 斜率 相同 的 解 (公式 (9.1.40))。 在 那 种 情况 下 ,RD 斜率 与 失真 成 正比 ;因此 ， 
最 佳 比特 分 配 在 不 同系 数 中 产生 相等 的 失真 。 

在 这 种 方法 中 的 一 个 难题 是 如 何 对 给 定 的 期 望 码 率 确定 *。 对 于 “个 任意 选择 的 A, 这 
种 方法 将 得 到 -个 在 特殊 的 码 率 下 最 佳 的 解 ,这 个 码 率 可 能 接近 也 可 能 不 接近 期 望 的 码 率 。 
在 参考 文献 [36] 中 导出 了 A 和 QP 之 闲 的 - -个 封闭 形 式 的 关系 , 它 假设 0P 是 基于 目标 比特 率 
选择 的 ( 见 下 一 小 站 )。 

编码 民 式 的 率 失真 最 住 选择 是 首先 由 Wiegand 等 考虑 的 [38]。 在 那里 ,为 了 应 对 同一- 帆 
和 相 邻 帧 中 不 同 宏 块 的 编码 模式 之 间 的 相互 依赖 性 ,采用 动态 编程 方案 同时 为 -- 组 宏 块 寻 找 
RIERA. Sullivan 和 Wiegand 的 论文 [36] 很 好 地 讨论 了 如 何 用 类 似 的 方法 确定 H.263 编 
码 吕 中 的 各 种 编码 选项 。 值 得 注意 的 是 :基于 RD 的 方法 优 于 局 发 式 的 方法 ,导致 在 W263 HE 
架 内 相当 临界 的 增益 (大 约 节省 10% 的 比特 率 或 0.5 dB 的 PSNR)[36]。 实 际 上 ,考虑 到 相当 
显著 的 复杂 度 的 增加 ,这 样 的 增益 可 能 并 不 被 认为 是 合理 的 。 因 而 ,RD 最 侍 化 方法 主要 是 作 
为 评价 启发 式 方法 性 能 的 一 种 基准 ,启发 式 方法 仍 是 实际 的 方法 。 

在 基于 RD 的 参数 选择 方法 中 ,从 计算 上 最 需要 的 一 步 是 收集 与 不 同 参数 设 定 有 关 的 RD 
数据 (编码 模式 和 QP, 以 及 可 能 的 不 同 运动 估计 方法 ),。 这 将 要 求 用 所 有 不 同 的 参数 实际 地 编 
但 所 有 的 宏 块 。 为 了 减少 计算 量 , 已 经 提出 了 一 - 些 一 方面 联系 码 率 与 失真 , 另 一 方面 联系 QP 
与 编码 模式 的 RD 模型 [5,24]。-… 量 获得 了 RD 数据 ,我 们 可 以 使 用 拉 梅 朗 日 乘 子 法 或 者 使 用 
动态 编程 法 来 求 得 最 佳 的 分 配 。 拉 格 朗 日 乘 子 法 比较 简单 ,但 具有 次 最 佳 的 性 能 ,因为 它 忽 略 
了 同一 帧 中 或 相 邻 帧 间 的 邻接 宏 块 的 码 率 之 局 的 相关 性 。 

除了 编码 参数 选择 外 ,基于 RD 的 方法 可 以 应 用 于 图 像 和 视频 编 公 中 的 各 种 问题 。- 一 个 
重要 的 领域 是 视频 编码 的 运动 估计 。 传 统 的 运动 估计 方法 只 注意 使 运动 补偿 预测 误差 最 小 化 
( 见 第 6 章 ) ,而 RD 最 佳 化 方法 还 考虑 对 产生 的 MV 进行 编码 所 需 的 码 率 。 例 如 ,考虑 到 编码 
非 零 的 MV 需要 额外 的 比特 ,如 果 把 非 零 MV 转换 为 零 MV 仅 导 致 稍微 高 一 点 的 预测 误差 ,我 
们 宁愿 选择 零 MY。 而 且 , 因 为 MY 是 以 预测 方式 编码 的 ,所 以 更 喜欢 较 平滑 的 运动 域 。 有 关 
RD 最 佳 运动 估计 的 工作 可 以 在 文献 [35,11,20,33,3] 中 找到 。 为 更 完全 地 了 解 如 何 用 RD 理 
论 使 图 像 和 视频 编码 优化 ,读者 可 以 参考 Ortega 和 Ramchandran 的 综述 文章 [58], 其 中 也 包含 
作为 优化 工具 的 拉 格 朗 日 和 动态 编程 方法 的 一 个 很 好 的 说 明 。 这 个 课题 更 广泛 的 涵盖 可 以 在 
Schuster 和 Katsaggelos[ 32] 中 找到 。 


9.3.4 码 率 控制 
_ ”视频 编码 中 -个 重要 的 问题 是 码 率 控制 ,这 是 指 如 何 编码 视频 以 使 产生 的 比特 流 满 足 月 


















































































































































C MEX, IDAR, = lima ADIAR DARE, RD 斜 事 可 以 度量 内 每 个 附加 比特 所 引起 的 失真 下 降 。 等 斜率 条 件 
等 价 于 雪 求 所 有 的 块 都 以 这 样 的 方式 十 作 : 在 每 个 块 中 -个 附加 比特 将 使 误差 减少 相同 量 。 否 则 ,一 个 工作 在 较 
高 ( 较 低 ) 斜 率 的 块 应 该 使 用 较 多 {( 较 少 ) 的 比特 。 
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标 比特 奈 。 在 混合 编码 杠 架 内 , 它 简化 为 如 何 选择 编码 参数 ( 帧 率 、 帧 间 还 是 帧 内 `.QP 等 ) 以 满 
足 色 率 约束 。 在 上 一 -小 节 间 接 提 到 了 这 个 问题 ,在 那里 我 们 描述 了 - -个 在 码 率 约 束 条 件 上 为 
竺 个 安 快 选择 编码 模式 的 RD 最 优化 六 法 。 

为 获得 满意 的 视觉 ,所 表 水 的 视频 最 好 具有 恒定 (或 平滑 变化 ) 的 质量 。 因 为 场景 的 活动 
性 (用 运动 以 及 纹 音 复杂 上 度 表 示 ) 随 时 间 变 化 ,所 以 需要 的 比特 从 一 帧 到 另 一 帧 是 变化 的 。 即 
使 我 们 接受 视频 质 时 的 变化 ,也 不 能 严格 地 使 比特 率 全 定 ,因为 在 帧 的 水 平 上 使 用 了 VLC 利 
可 能 不 同 的 编码 模式 ， 因 此 ,我 们 可 以 期 望 的 最 好 精 况 是 在 短 的 时 间 间 隔 内 实现 恒定 的 平均 
磁 率 。 在 每 个 问 隔 内 比特 位 的 变化 必须 用 编码 器 之 后 的 一 个 平 谓 缓冲 器 进行 处 理 。 从 编码 器 
输出 的 比特 首先 以 可 变 的 码 率 进入 平滑 缓冲 器 ,然后 以 恒定 的 码 率 移出 缓冲 器 。 最 大 的 时 间 
间 唱 和 在 这 个 闻 隐 内 所 人 允许 的 变化 收 决 于 应 用 的 延迟 费 求 和 购 类 得 起 的 缓冲 器 的 大 小 D。 缓 
冲 右 起 大 ,视频 质 如 就 越 好 ,但 也 将 引入 更 长 的 延迟 。 

码 率 控制 通常 是 以 三 步 完 成 的 

L 为 每 个 短 的 时 间 间 隔 ( 也 称 为 碍 率 更 新 间隔 ) 更 新 目标 平均 比特 率 ( 以 bps 为 单位 )®; 

2. 确定 编 公 模 式 ( 例 如 ,1,P 或 B 帧 ) 和 在 这 个 问 隔 内 和 欲 编码 的 每 一 帧 的 日 标 比特 预算 , 它 通 

常 是 基于 这 个 间隔 的 日 标 平均 码 率 和 当前 缓冲 器 充满 度 ; 
3. 为 帧 中 的 每 个 宏 块 确定 编码 模式 和 QP DOA MOTE A RE 


第 - 步 取决 二 应 用 系统 。 对 十 恒定 比特 率 (CBR) 网 络 (例如 -个 调制 解 调 线路 或 ISDN 信 
道 ) 上 的 视频 传输 ,目标 平均 码 率 应 该 是 恒定 的 。 对 于 能 容纳 可 变 比 特 率 (VBR) 的 网 络 ,例如 
ATM 网 络 ,编码 器 应 该 试图 调节 码 这 以 保持 恒定 的 视频 质量 , 且 仍 满足 平均 各 峰值 码 率 归 求 
[14]。 最 后 ,对 于 信道 容量 和 误 码 特性 随时 间 变 化 的 网 络 , 例如 尽力 使 资源 的 使 用 达到 最 好 的 
特 网 和 无 线 信道 ,必须 根据 信道 条 件 更 新 目标 平均 色 率 。 更 新 闻 隔 取 次 于 网 络 条 件 变化 有 多 快 。 
在 所 有 这 些 应 用 系统 中 ,每 个 更 新 闻 隔 的 目标 平均 比特 率 应 该 不 仅 取决 于 可 用 带宽 (在 时 变 信道 
中 它 中 需要 估计 的 》, 也 取决 于 端 到 端的 延迟 党 求 和 当前 编码 器 的 缓冲 器 大 小 ( 即 余下 多 少 比 特 
要 发 送 )。 实 质 上 ,目标 码 率 应 该 设置 成 使 得 米 白 当前 更 新 间隔 的 比特 以 及 缓冲 器 中 剩余 的 比特 
可 以 在 最 大 的 多 许 延迟 时 间 内 到 达 晶 的 地 ，、 从 这 种 意义 上 米 说 , 凤 率 约束 是 由 延迟 约束 决定 的 
[27]。 在 有 损 网 络 由 ,我 们 也 必须 考虑 这 样 的 事实 : 当 某 些 以 前 已 发 送 过 的 数据 在 传输 期 问 受 损 
的 情况 下 ,可 能 需要 重 传 [13]。 在 参考 文献 [27] 中 , Oreg 提出 了 一 种 码 率 控制 问题 的 分 类 方法 ， 
广泛 讨论 了 如 何 基 于 网 络 特性 和 延迟 要 求 确定 目标 码 率 。 对 于 为 因特网 应 用 系统 上 的 视频 流 设 
计 的 码 率 估计 方法 , 见 第 15 章 中 的 讨论 。 

第 二 步 一 般 是 通过 基于 更 新 闻 陋 的 总 码 率 预算 选择 适当 的 巾 率 ,并 且 为 间隔 内 所 有 的 帧 分 
配 相 同 的 目标 码 率 实现 的 。 当 缓冲 器 占用 率 有 溢出 危险 时 ,可 以 跳 过 i, FRL 
的 比特 大 大 超过 规定 的 月 标 码 府 , 或 这 个 问 隔 的 剩余 比特 预算 不 足以 用 规定 的 帧 率 对 视频 编码 
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“ 时，, 谥 册 是 可 能 发 牛 的 。 这 是 通常 用 于 灾 扎 式 应 用 系统 的 方法 , 除 第 一 帧 外 ,所 有 的 帧 都 用 帧 间 











模式 编码 以 维持 帧 问 相 当 便 定 的 延迟 。 对 十 MPEG -2 编码 的 视频 广播 或 视频 流 , 更 新 间隔 道 党 


出 ”考虑 存储 器 成 本 不 断 地 下 降 ,有 理由 修 设 缓冲 器 可 以 共有 端 到 端的 延迟 所 允许 的 大 小 ,因此 缓冲 器 大 小 的 物理 限 
制 呆 以 忽略 L27]。 编 码 带 的 缓冲 器 只 是 引起 视频 传输 端 到 端 延 过 的 一 个 因素 。 对 于 中 起 端 到 端 延 过 不 同 因 素 的 
HG IE 14 章 。 

D 实际 二 ,这 可 雇 用 济 动 窗 的 方式 敌 到 :也 说 是 培 ,在 每 个 新 的 帧 期 间 ,确定 此 四 之 后 一 -个 短 时 间 肉 的 且 标 比特 率 。 
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对 应 一 个 图 像 组 ,包含 一 个 【 帧 ,后 跟 交 织 的 P 和 B 帧 。 通 常 ,一 个 图 像 组 内 的 码 率 分 配 , 在 用 十 
I 帧 了 帧 季 帧 的 比特 之 问 , 呈 现 某 种 恒定 比率 [16]。 更 复杂 的 是 ,基于 RD 的 方法 试图 基于 场 
景 内 容 在 帧 间 分 配 总 的 比特 ,以 便 使 平均 失真 最 小 。 然 而 ,所 涉及 到 的 超前 准备 将 导致 相当 大 的 
计算 量 和 额外 的 编码 延迟 。 

帧 内 的 码 率 控制 ( 即 第 一 步 ) 可 以 通过 调整 每 个 宏 块 的 编码 模式 和 QP 来 实现 ,调整 可 以 基于 
启发 式 规则 或 采用 RD 最 优化 方法 ,如 9.3.3 节 中 所 述 。 
上 上 述 讨论 主 此 集中 于 视频 传输 的 应 用 。 对 于 存储 应 用 系统 {例如 在 DVD 电影 中 ) ,用 于 视频 
的 总 比特 受到 存储 媒体 容量 限制 ;然而 ,比特 率 可 以 随时 间 改 变 , 以 适应 场景 中 活动 的 变化 。 
到 月 前 为 止 ,所 讨论 的 码 率 控 制 解决 方案 仅 考虑 了 基 王波 形 的 编码 器 。 对 于 基 寺 物体 的 编 
PRAEH MPRC-4) ,得 率 控制 必须 考虑 在 多 个 物体 之 问 的 码 率 分 配 ; 并 日 ,在 每 个 物体 内 ,在 形 
状 , 运 动 和 纹 姐 之 间 分 配 码 率 。 不 同 物体 的 帧 率 也 可 以 根据 每 个 物体 的 重要 性 而 改变 。Veto， 
Sun 和 Wang 讨论 了 这 些 问题 [37]。 
除了 生成 具有 国定 门 标 码 率 的 比特 流 以 外 , 另 一 种 方法 是 产生 可 分 级 的 比特 流 , 收 信 机 可 以 
根据 机 用 带宽 只 从 这 个 比特 流 中 有 选择 地 抽取 部 分 比特 。 这 种 方法 比较 适合 于 多 个 具有 不 同 连 
接 性 能 的 用 户 访问 同 “个 视频 的 场合 。 可 分 级 编码 在 第 11 章 中 讨论 ;在 第 15 章 中 讨论 可 分 级 
视频 流向 具有 不 同 带宽 容量 的 用 户 发 布 的 问题 。 
与 码 率 控制 有 关 的 一 个 问题 是 码 率 成 形 。 它 是 措 在 压缩 层 和 网 络 传输 层 之 间或 在 两 个 网 络 
段 之 闻 的 接口 ( 称 为 码 率 转换 嚣 或 滤波 央 ) 功 能 ; 琉 先 压缩 的 视频 流通 过 接 11 进 行 转换 ,使 得 这: 牛 
的 视频 流 的 码 率 与 可 用 网 络 带 宽 匹 配 。 这 个 课题 将 在 第 15 章 中 讨论 。 

重 此 的 是 要 注意 ,在 视频 编码 标准 中 ,没有 定义 编码 模式 选择 和 但 率 控制 。 只 更 编 玛 比特 流 
符合 标准 的 语法 ,编码 器 具有 使 它们 的 实现 最 优化 的 灵活 性 。 


9.3.5 环 路 滤波 


运动 补偿 预测 误差 的 信 源 可 以 分 为 二 类 :(1) 运 动 估 计 误 差 !(2) 参 考 帧 中 的 噪声 , 它 可 能 来 

源 于 前 面 几 帧 运动 估计 引起 的 误差 以 及 量化 误差 的 累积 ;(3) 在 编码 帧 中 不 是 由 运动 引起 的 变 

化 ,例如 速 挡 和 照度 变化 。 为 了 从 根本 上 抑制 第 二 种 噪声 信 源 ,可 以 应 用 环 路 滤波 , 它 由 应 用 于 

顶 测 图 像 的 低 通 滤波 嚣 组成。 注意 ,对 于 非 整 数 运 动 估 计 , 当 进行 运动 补偿 顶 测 时 , 隐 含 地 使 用 

本 内 插 滤 波 器 。 类 似 地 , 环 路 滤波 可 以 隐 含 地 用 OBMC 实现 。 然而 ,如 下 而 可 以 看 到 的 ,可 以 特 
别 设计 滤波 器 来 降低 视频 信号 中 曲 声 的 影响 。 具 有 滤波 的 运动 补偿 一 般 可 以 描述 为 

Vi Cay) = gla,y)* Vla + dr yy + d,(x,y)) (9.3.11) 


其 路 ,y Cosy Ae UBL, Coe, y RRR BAW, 9 Cx, y ERIRE DEE ER TMT, x 表示 
二 维 线性 卷 积 。 下 面 ,我 们 按照 Girodf 10,8,9] 的 方法 推导 最 佳 滤波 器 。 

为 了 简化 设计 ,做 以 下 假设 :(1) 参 考 视 频 巾 是 平稳 随机 场 ;(2) 在 不 同 空间 位 置 上 估计 的 运 
动 矢 景 的 误差 是 相互 独立 的 ;(3) 蝶 声 项 独立 于 参考 帧 。 在 这 些 假设 下 ,预测 误差 的 功率 谱 密 度 
《PSD) 可 以 表示 [8] 为 : 




































































* 标 有 时 号 的 节 可 以 跳 过 或 留待 进一步 研究 。 
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Spe Sof) = Suv fof +1 O64) È = RIC SOPU f) 
+ Sua oh GPa A) P (9.3.12) 
在 这 个 关系 式 中 ,Sy y fM S, a SL RRR SBN PSD ARH EH; COULA) EÈ 
ea WREE; PU A Ea HRA HY Be EP HOt BIR Zo 
址 的 实 部 。 在 这 个 分 析 中 ,假设 六 号 是 离散 的 . 伟 里 叶 变换 是 DSFT。 
对 公式 (9.3.12) 关 于 5(A, 矿 ) 求 导 , 我 们 得 到 使 均 方 预 测 误 益 为 最 小 的 最 佳 滤波 器 ; 


. Sv ww fof) 
CRA) = PA) BOL) ST (9.3.13) 


JO, = ORRIN. 注意 , 若 没有 乘法 项 户 (人 , 广 ), 这 个 滤波 器 就 是 传统 的 关于 噪声 项 的 
维 纳 (Wiener) 滤 波 器 。 内 子 p" (J.,f) 考 虑 了 运动 估计 的 不 精确 性 。 

一 般 地 ,P(A,A) 具 有 低 通 滤波 特性 。 因 此 ,一 般 来 说 最 作 滤 波 器 6(/,f;) 也 是 低 通 的 。 
仔细 羽 察 公式 (9.3,12) 将 看 出 S.-( 大 ,8 矿 ) 的 趋势 中 在 低空 间 频 率 小 ,在 高 空间 频率 大 。 例如 ， 
MURR THES ARB Gf) = 0, 则 对 于 这 个 频率 区 威 预测 误差 将 具有 与 参考 信 生 相同 
的 能 量 。 这 个 分 析 表 明 ,运动 补偿 对 信和 届 的 低频 分 量 起 作用 .但 不 对 高 频 分 量 起 作用 ,即使 采 
几 最 佳 滤波 器 也 是 如 此 。 图 9.18 示 出 了 采用 种 不 采用 最 佳 滤波 器 时 两 种 运动 估计 精度 水 平 

下 的 S (Ff ,f/)。 在 两 种 情况 下 ,都 假设 Sna LA) =0。 














对 数 功率 谱 密度 
HEIEREN 


(a) (by 


图 9.18 两 种 精度 下 的 运动 补偿 预测 误差 的 功率 谱 密 度 ; 

(a) 中 等 精度 的 运动 估计 ;(b) 非常 精确 的 运动 估计 
已 经 发 现 环 路 涉 波 器 在 预测 精度 方面 能 提供 显著 的 增益 。 事 实 上 , 环 路 滤波 器 的 使 用 明 
确 地 包括 进 了 ITU - TH.261 视频 编码 标准 中 , 这 个 标准 采用 整数 像素 精度 的 运动 佑 计 ( 见 
13.2.1 9). 
预测 误差 、 运 动 估计 精度 和 环 路 滤波 之 间 的 关系 ”我 们 现在 按照 Girod 的 方法 [8,9, 10]， 
在 采用 或 不 采用 最 佳 滤波 的 情况 下 ,分析 预测 误差 .运动 估计 精度 和 噪声 功率 之 间 的 关系 。 册 
公式 (9.3.12) 中 预测 误差 的 功率 谱 密度 ,我们 可 以 用 下 式 确定 预测 误差 的 方差 { 即 绩 测 的 

MSE): 


























oe fl Sh ahah (9.3.14) 


-i 


假设 信号 功率 谱 是 各 向 同性 的 ,具有 方差 如, 品 声 是 具有 方差 0? 的 平坦 的 功率 谱 ,运动 补偿 
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误差 服从 高 斯 分 布 ,具有 方差 cai Cirod 为 各 种 运动 估计 精度 和 信 喉 比 计算 了 预测 误差 的 方 
差 。 图 9.19 示 出 了 他 的 分 析 结 果 。 最 有 趣 的 看 法 是 :存在 一 个 运动 估计 精度 的 临界 点 ,超过 
这 个 点 进一步 改善 驴 测 精度 的 可 能 性 是 很 小 的 。 这 个 临界 点 随 信 号 中 噪声 电 平 的 增加 而 增 
加 。 也 就 是 说 , 当 信号 存在 很 强 的 噪声 时 ,不 存在 一 个 能 够 很 准确 地 估计 运动 的 点 。 即 使 用 非 
常 准确 的 运动 估计 ,由 于 喉 声 的 存在 ,预测 帧 仍然 易于 产生 误差 。 这 幅 图 也 揭示 出 , 当 噪 声 电 
平 很 高 时 , 维 纳 滤波 可 能 非常 有 用 ,但 在 低 噪声 的 情况 下 并 不 十 分 有 效 。 

在 图 9.19 中 ,运动 估计 误差 的 方差 与 像素 的 搜索 精度 有 关 。 这 个 关系 的 建立 是 由 于 假设 
运动 估计 误差 完全 是 由 于 对 给 定 的 小 数 精度 进行 四 含 五 人 引起 的 。 垂 直 虚 线 指示 用 图 上 所 标 
示 的 运动 补偿 精度 可 以 达 色 的 最 小 位 移 误 差 的 方差 。 我 们 可 以 看 到 ,在 低 噪声 情况 下 ,需要 不 
大 于 V8 像素 的 精度 ,而 在 高 噪声 情况 下 ,1/2 像素 精度 就 足够 了 。 这 些 分 析 结果 已 被 实际 斌 
验 结果 所 确认 [9]。 已 经 提出 的 一 种 观点 是 ,对 于 高 质量 广播 视频 信 导 ,1/4 像素 精度 的 运动 估 
计 对 一 个 实际 的 编码 器 是 足够 的 , 昕 对 视频 电话 型 信号 1/2 像素 精度 似乎 是 一 个 期 望 的 界限 。 
在 这 两 种 情况 下 ,都 比 整 数 像素 精度 有 显 苦 的 增益 。 
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归 - 化 位 移 误 闪 方差 oly? 
图 9,19 运动 补偿 精度 对 有 品 信 号 的 预测 误差 方差 的 影 
响 。 了 表示 一 个 像素 的 宽度 (假设 高 等 于 宽 》 
9.4 小 结 
变换 编码 (9.1 节 ) 


© 变换 提供 一 种 把 一 组 样 点 ( 即 一 个 图 像 块 ) 表 示 为 基本 模式 的 线性 组 合 的 方法 。 变 换 编 
码 的 目的 是 去 除 原始 样 点 的 相关 性 ,并 把 能 量 压 缩 到 少数 几 个 系数 上 ,以 便 能 有 效 地 应 
用 标量 量化。 在 这 些 准 则 下 的 最 佳 变 换 是 KLT. 

。 为 了 从 变换 编码 中 得 到 最 大 的 增益 ,必须 适当 地 在 系数 之 间 分 配 比特 。 景 佳 分 配 (公式 
(9.1.43)) 使 不 同系 数 遭 受 的 失真 均衡 化 (公式 (9.1.44))。 最 终 的 失真 取决 于 系数 方差 
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预测 编码 {9.2 节 } 


基于 块 的 混合 视频 编码 (9.3 H) 





的 几何 半 均 、 

e KIT 取决 于 信号 的 二 阶 统 计 特 性 ,因此 , 它 是 依 扩 于 国 像 的 , 且 难 于 计算 。 对 十 大 多 数 
图 像 信 号 ,DCT 是 KIT 很 好 的 近似 ,并 日 可 以 用 快速 算法 计算 它 。 

© 2E F DOT 的 编码 方法 (9.1.7 节 ) 中 图像 编 但 的 有 效 方法 ,并且 已 在 图 像 和 视频 编 但 的 
国际 标准 中 采用 。 

量化 的 最 佳 化 和 二 进 制 编码 过 程 在 变换 编码 器 中 是 非常 重要 的 。 对 于 相似 的 世 化 和 二 
进 制 编码 方案 ,DCT 和 小 波 变 换 导 致 相似 的 编码 效率 。 








预测 的 目的 也 是 要 减少 欲 编码 样 点 之 间 的 相关 竹 , 以 便 可 以 有 效 地 应 用 标明 量化。 项 
测 器 应 该 汕 计 成 使 需 测 误差 最 小 。 通 过 解 尤 皇 - 沃克 方程 (公式 (9.2.6)) 可 以 确定 
IMMSEH AK o 

e Ji RATE PR) SAREA RER SAR AZRA, BE 
闭环 顶 测 ;在 闭环 预测 中 编码 天 必须 重复 与 解码 器 相同 的 操作 。 

STEL, HERRN A 与 变换 长 度 相 同时 ,项 测 编 侍 优 于 变换 编码 。 然 而 , 预测 编码 产 
生 的 比特 流 对 传输 误 介 很 敏感 

O 对 于 视频 编码 ,预测 可 以 在 空间 域 和 时 亲 域 进行 。 存 时间 方向 上 , 考 虚 物 体 运 动 的 影响 
需 烽 进行 运动 补偿 。 仪 用 很 低 阶 的 预测 器 (通常 仅 用 前 亩 的 … 帧 ) 以 维持 合理 的 复杂 
度 ,并 减 小 传输 误 码 扩散 的 影响 ， 














O 基于 块 的 混合 编码 器 (9.3.1 节 ) 有 效 地 详 合 了 运动 补偿 预测 和 安 换 编码 。 因 为 它 具有 
相对 较 低 的 复杂 度 和 好 的 编码 效率 ,所 以 它 在 各 种 视频 编码 的 同 际 标准 中 都 得 到 采用 
(第 13 #8). 

o 伯 混 全 编码 的 框架 内 ,适当 地 进行 运动 估计 和 补偿 (例如 ,有 或 没有 重 双 ,固定 的 或 可 变 
的 块 尺寸 ) 和 选择 操作 模式 ( 帧 内 或 昨 间 模式 , 顶 测 模式 ,等 等 ) 可 以 改善 性 能 。RD 最 优 
化 方法 选择 这 些 编码 选项 ,以 使 在 给 定 介 率 约束 下 使 失真 最 小 (9.3.3 节 )。 

© 码 率 控制 (9.3.4 节 ) 在 视频 编码 中 是 -个 重要 问题 。 特 别 对 于 实时 应 用 系统 ,过 大 的 码 
率 会 导致 由 传输 延迟 和 琅 码 引起 的 质量 退化 (改善 的 反面 )。 泥 合 编码 器 中 的 仙 率 控制 
通常 是 通过 调整 帧 次 和 晤 化 参数 实现 的 .采用 启发 式 或 者 RD 最 优化 方法 。 

© 编码 异 式 选 择 和 码 率 控制 可 以 显著 地 影响 编 但 器 的 性 能 。 注 意 ,所 有 采用 混合 编码 杠 
架 的 视频 编码 标准 仅 定义 了 比特 流 洛 法 ,从 而 仅 定义 了 解码 器 操作 。 这 给 了 编码 器 在 
最 优化 其 操作 上 的 关 活 性 ,包括 运动 补偿 ` 编 码 模式 选择 和 码 率 崇 制 。 这 些 一 般 是 区 分 
所 有 符合 相同 标准 的 视频 编码 系统 的 因素 . 除 编码 效率 的 考虑 以 外 ,其 他 可 以 区 分 系 
统 的 因素 是 ,编码 器 如 何 使 比特 流 对 传输 误 码 更 有 复原 能 沪 ( 通 过 在 标准 框架 内 明智 地 
选择 编码 参数 ) ,以 及 解 寞 器 如 何 反 搞 传 输 误 码 。 这 些 问题 将 在 第 14 章 中 讨论 。 

通过 应 用 坏 路 滤波 (9.3.5 节 ) 可 以 政 善 运动 补偿 精度 ; 它 抑制 前 面 帧 中 量化 误差 的 扩 
数 。 吕 以 达到 的 运动 补偿 精度 不 仅 取决 于 运动 估计 精度 ,也 取 次 于 所 用 的 环 路 滤波 器 
和 信号 中 的 噪声 电 平 (9.3.5 节 )。 
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9.5 习题 


9.1 
9.2 
9.3 
9.4 
9.5 
9.6 
9.7 


9.9 


2 
S 


o 


证 明 公式 (9.1.11~ 9.1.16) 中 的 关系 。 

证 实 一 维 DCT 的 基 函 数 形 成 正 交 基 。 

证 明 两 个 正 交 的 一 维基 的 外 积 所 形成 的 二 维基 也 是 正安 的 。 

IETFRERR or = 0, = ps = 0 重 做 例 9.4。 

对 于 特殊 情况 o = 0, = ps = p 重 做 例 9.5。 把 KIT 变换 基 与 DCT 进行 比较 。 

对 十 特殊 情况 m = p, = ps = p 重 做 例 9.6。 

考虑 一 个 预测 图 像 编码 系统 ,每 个 像素 是 出 - -个 在 上 方 一 个 在 左 侧 的 两 个 相 邻 像 
素 预 浏 的 。 假 设 图 像 统计 特性 与 例 9.4 中 所 考虑 的 -: 样 。 导 出 最 佳 预测 器 和 预测 
编 代 增益 。 把 这 个 结果 与 例 9.6 中 的 相 比 较 。 哪 -个 项 测 器 的 效率 更 高 ? 

写 出 考察 用 部 分 DCT 系数 近似 图 像 的 效果 的 C 或 MATLAB 代码 。 采 用 8 x 8 DCT, 
用 天 <64( 玉 =4.8,16,32) 个 系数 重建 图 像 。 为 提供 一 个 满意 的 重建 需要 多 少 系数 ? 
与 出 考察 DCT 域 中 景 化 效应 的 C MATLAB 代码 。 采 用 8x 8 DCT, 选择 量化 步 长 
ER 9.7 中 所 给 的 量化 表 的 倍数 。 尝 试用 0.5,1,2,4,8 和 16 的 缩放 因子 。 仍 能 提 
供 一 个 满意 图 像 的 最 大 缩放 因子 是 多 少 ? 

两 种 简单 的 变换 编码 方法 是 :(a) 仅 保留 前 K 个 系数 ( 称 为 区 域 编 公 );(b) 仅 保留 超 
过 -个 特定 闭 值 的 系数 ( 称 为 阔 值 编 吗 ); 讨论 这 两 种 方法 的 优 劣 。 

考虑 以 下 三 种 视频 编码 方法 :直接 编码 一 帧 ;编码 每 两 帧 之 间 的 差 值 ;在 每 两 帧 间 进 
行 某 于 块 的 运动 估计 并 编码 运动 补偿 误差 图 像 。 辣 想 达 到 -个 给 定 的 失真 所 需要 
的 比特 率 与 欲 编 码 的 伟 号 的 方差 成 正比 。 从 一 个 序 询 中 取 两 个 相 邻 的 视频 帧 ,计算 
并 比较 以 下 三 种 情况 的 方差 (a) 直 接 的 一 帧 ;(b) 两 帧 间 直 接 的 差 值 ; (ce) 运动 补偿 误 
差 图 像 。 基 十 你 的 结果 ,你 能 确定 这 三 种 编码 方法 中 哪 一 种 效率 更 高 吗 ? 

方差 只 是 所 需要 的 比特 率 的 粗略 指示 。 如 果 我 们 对 习题 9.11 中 三 种 方法 的 短 一 种 
都 应 用 DCT 编码 ,比特 率 的 一 个 较 精 确 的 测度 是 用 所 选择 的 量化 参数 层 化 后 非 零 
的 DCT 系 数 的 数目 。 写 出 进行 这 个 实验 的 C 或 MATLAB 代码 。 

证 明 OBMC 最 佳 线性 估计 器 的 解 是 如 公式 (9.3.4) 所 给 出 的 。 

证 明 对 应 于 图 9.16 所 给 出 的 加 权 系 数 的 窗 函 数 是 如 图 9.17 所 给 出 的 。 以 图 9.15 
的 形式 画 出 它 来 ,并 说 论 两 个 窗 函 数 之 间 的 相似 性 和 差别 。 

写 出 实现 一 个 基于 块 的 汇合 编码 器 的 基本 形式 的 C 或 MATLAB 程序 。 为 简单 起 见 ， 
仅 考 起 帧 内 模式 和 P 模 式 。 除 了 整个 用 帆 内 合式 编码 的 第 一 帧 外 ,根据 是 原始 的 宏 
块 还 是 运动 补偿 误差 有 较 小 的 方差 ,后 面 帧 中 的 每 个 宏 块 将 用 帧 内 模式 或 首 几 上 模 
式 编码 。 对 于 运动 估计 ,可 以 选择 用 EBMA 或 者 用 一 些 快速 算法 实现 。 对 于 无 损 纺 
码 部 分 ,可 以 使 用 标准 中 给 出 的 哈 大 学 表 ( 例 如 ,参考 文献 17]) ,或 者 通过 计算 欲 编 
码 的 符号 的 炉 来 合计 所 需要 的 比特 率 。 把 该 程序 应 用 于 几 个 具有 不 同 运动 水 平 , 采 
用 不 同 参数 (QP、 帧 率 、\ 内 由 或 帧 内 快 率 ,等 等 ) 的 测试 序列 。 评 价 码 率 , 失 真 和 复杂 
度 ( 执 行 时 间 ) 之 间 的 折 中 。 播 放 解 压缩 视频 ,观察 具有 不 同 QP 的 编码 效应 。 
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在 8.1 节 中 ,我 们 给 出 了 不 同 视频 编 码 系统 的 概述 。 区 分 编码 系统 的 一 种 方法 是 比较 它 
们 的 信 源 模型 。 在 第 9 章 中 描述 的 视频 编码 是 基于 不 自 适 应 视频 序列 中 运动 物体 形状 的 信 源 
模型 的 。 在 本 章 中 ,我 们 主要 介绍 考虑 视频 序列 中 物体 的 形状 的 视频 编码 算法 。 为 了 有 效 地 
传输 任意 形状 的 视频 物体 ,必须 编码 物体 的 形状 以 及 纹理 。 在 10.1 节 中 ,我 们 描述 编码 -个 
物体 的 二 维 形 状 的 几 种 方法 。10.2 节 给 出 有 效 编码 区 域 纹理 的 算法 。 联 合 编码 形状 和 纹理 
的 两 种 算法 在 10.3 节 中 简单 介绍 。 在 10.4 节 和 10.5 节 中 ,我 们 描述 这 些 技 术 如 何 分 别 应 用 
二 基于 区 域 和 基于 物体 的 编码 。 基 于 物体 的 编码 可 以 基于 二 维和 一 维 物 体 模 型 。 用 三 维 物体 
模型 ,可 以 把 基于 物体 的 编码 推广 到 基于 知识 的 和 语义 的 编码 ,如 10.6 节 和 10.7 节 所 述 。 在 
10.8 节 中 ,我 们 提出 一 种 概念 ,允许 把 传统 的 基于 块 的 混合 编码 与 基于 物体 的 .基于 知识 的 和 

- 语义 编码 一 体 化 。 


10.1 二 维 形状 编码 


假定 第 个 物体 的 二 维 形状 是 通过 阿尔 法 映射 MM, 定义 的 : 
M.=im,(x,y)lOcreX¥ Ocy<¥l, 0s m 255 (10.1.1) 
形状 M 对 于 每 个 像素 x=(x,y) 定 义 了 它 或 者 属于 该 物体 (m, (x) > 0) ,或 者 不 属于 该 物体 
《me《X) =0)。 对 于 -个 不 透明 的 物体 ,对 应 的 阿尔 法 徒 是 255, 而 对 于 透明 物体 ,它们 的 范围 从 
0 到 255。 通 常 ,阿尔 法 映射 与 视频 序列 中 的 亮度 信号 一 样 有 相同 的 空间 和 时 间 分 状 率 。 在 视 
频 编 辑 应 用 系统 中 ,用 阿尔 法 映射 来 描述 物体 形状 和 物体 的 透明 度 。 让 我 们 假设 有 一 个 背景 
图 像 (x) BEHAV (ORRE, m。(x) 表 示 阿 尔 法 映射 。 把 物体 覆盖 在 背景 上 是 按照 下 式 
完成 的 : 、 
































m(x) m(x) 


v= (1- 355 Jo + Bee 


阿尔 法 映射 的 师 度 确定 物体 的 可 见 度 有 多 大 。 kmh RIED MMMM. AN 
Bt, m, (x) € 10,2551. 
有 两 类 二 进 制 形 状 编码 器 。 基 于 位 图 的 编码 器 (10.1.1 节 ) 对 每 个 像素 属于 还 是 不 属于 物 
体 进行 编码 。 基 于 轮廓 的 编码 器 (10.1.2 节 ) 对 物体 的 轮廓 进行 编码 。 为 了 恢复 出 物体 形状 的 
.位 图 ,轮廓 用 物体 标号 填充 。 在 纹理 随 着 形状 信息 传输 的 情况 下 ,可 以 用 隐 含 的 形状 编码 器 ; 
通过 它 可 以 从 纹理 导出 形状 信息 ( 见 10.3 节 )。 如 同 纹理 编码 ,二 进 制 形状 可 以 用 有 损 或 无 损 
的 方式 编 吗 。 内 此 ,重要 的 是 定义 有 损 编码 形状 的 质量 测度 (10.1.3 节 )。 


10.1.1 位 图 编码 


基于 位 图 的 形状 编码 器 规定 一 个 二 进 制 阿尔 法 映射 。 在 其 最 简单 的 形式 中 ,我 们 扫描 阿 
尔 法 映射 并 根据 每 个 像素 是 否 属于 物体 为 它 传输 0 或 1。 这 样 的 算法 效率 低 , 因 为 它 没有 考 


oe (x) (10.1.2) 
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上 处 相仿 像素 之 间 的 统计 相关 性 。 在 本 节 中 ,我 们 描述 三 种 提高 编码 效率 的 方法 :一 类 算法 是 以 
扫描 行 的 峨 序 扫 描 位 图 并 确定 黑 像 素 和 白 像素 的 游程 ;第 二 类 是 基于 相 邻 像素 的 彩色 ,编码 位 
图 的 每 一 个 像素 :第 二 类 是 把 形状 定义 为 基本 形状 的 树 ,这 些 基本 形状 的 排列 完全 填充 物体 的 











形状 。 


行 扫描 编码 ”在 这 种 方法 中 ,我 们 逐 行 地 扫描 图 像 .并 用 可 变 长 编码 器 传输 黑白 像素 的 游 


Fe ,由 此 利用 像素 之 问 的 一 维 相关 性 。 这 种 方法 被 用 于 传真 标准 G3[40 


]。 随 后 ,我 们 讨论 这 


种 编码 器 的 一 个 的 广 , 它 同时 考虑 了 相 邻 扫 描 行 之 癌 的 相关 性 。 














于 传真 标准 G4f23] 和 JBIG[24] 中 的 修正 的 READ (相对 元 素 地 址 指定 ,relative element 


address designate) 码 ， 参 考 前 面 的 扫描 行 编码 每 个 扫描 行 , 由 此 利用 二 维 的 相关 性 。 该 算法 扫 
描 文件 的 每 -- 行 ,并 对 安 化 像素 的 位 置 进行 编码 , 在 变化 像素 处 , 扫描 行 的 彩色 发 生变 化 (图 
10.1)。 在 这 个 逐 行 方案 中 ， 当 前 行人 每 个 变化 像素 的 位 置 是 相对 于 紧 挨 着 当前 行 的 参考 行 的 相 
应 变化 像素 , 或 者 当前 行 中 前 .一 个 变化 像素 的 位 置 编码 的 [40]。 图 10.1 用 来 解释 修正 READ 
编码 器 的 一 个 实现 。 我 们 假设 已 经 编码 了 块 的 前 五 行 ， 因 此 编码 器 知道 在 当前 块 中 像素 a0 
和 5 的 位置 。 在 物体 边界 上 的 未 知 点 a1 参考 这 两 个 像素 00 和 81 进行 编码 。 像 素 a0 是 最 
后 一 个 在 al 前 编码 的 边界 像素 。 像 素 b1 是 a0 上 一 行 、 在 a0 的 右边 并 与 a0 的 彩色 相反 的 
E -DEERE (如 果 这 样 的 点 存在 的 话 )。 如 果 不 存在 这 样 的 点 , 那么 il 是 与 a0 同行 的 
RAWAM. NT Sets 00 al 之 间 的 距离 ,选择 三 种 模式 之 --: 垂直 的 、 水 平 的 或 











自身 的 
模式 = 水平 的 


垂直 通过 的 
HOF TBH, W 是 欲 编 但 的 块 的 宽度 。7 (ALR 


否则 ,如果 nam(al) - num( a0) < W 


否则 


10.1 的 例子 中 ,如 果 了 = 5, 则 a1 以 垂直 模式 编码 。 











重 让 通过 的 。 假 设 所 有 的 像素 以 光栅 扫 措 的 顺序 被 编导 , 块 的 左上 角 的 号 码 为 0 (例如 , 图 
10.1 中 num( a0) = 34), 并 虽 对 列 从 左 到 右 编号 ( 例 轴 


， cool(a0) =2), 则 按照 下 式 选 择 模式 ， 
如 果 leolfal) —col( bl) <P 





HATA BE, oR T= 5。 在 


(10.1.3) 























að kh o 


al 








bl 























9 变化 像素 
图 10.1 对 于 修正 的 READ 编码 器 ,变化 的 像素 定义 物体 的 边界 














在 垂直 模式 中 ,距离 col(a1) ~ col(41) A 8 4 VLC 表 之 一 进行 编码 ,按照 物体 边界 的 方向 
选 怪 表 ,方向 是 由 一 个 位 于 像素 51 上 面 的 模板 所 定义 的 (图 10.1)。 








在 水 平 模式 中 ,el 的 位 置 作为 它 到 a0 的 距离 被 编码 。 正 是 由 于 选择 了 水 平 的 而 不 是 垂 
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直 的 模式 , 解 色 锯 有 时 可 以 推 茹 出 a0 与 a1 之 闻 的 最 小 距离 。 在 这 种 情况 下 , 仪 编码 关 于 这 
个 最 小 距离 的 差 值 , 

当 a0 之 后 至 少 有 一 行 的 点 没有 边界 像素 时 ,按照 公式 (10.1.3) 应 该 选择 乖 直 道 过 模式 。 
在 这 种 倩 况 下 ,我 们 为 每 一 个 没有 物体 边界 的 行 发 送 一 个 码 字 。 最 后 -个 码 字 编码 中 物体 边 
FET RGAE 

像素 方式 编 玛 ”这 种 编码 器 利用 和 欲 编码 的 一 进 制 形 状 信息 的 空 呵 宛 余 。 像素 以 扫描 行 顺 
序 逐 行进 行 编码 。 等 个 像素 的 彩色 采用 条 件 糖 编码 ( 见 8.3.1 节 )。 一 个 n 像素 的 模板 用 来 为 
预测 当前 像素 的 彩色 定义 下文。 图 10.2 给 出 了 “个 为 编码 当前 像素 用 10 个 像素 定义 上 下 
文 的 模板 。 模 极 在 欲 编码 像素 的 左 , 右 ` 上 方 各 扩展 两 个 像素 [5]。 这 个 上 于 文 ( 即 模板 中 像素 
的 彩色 ) 决 定 了 我 们 用 于 编码 当前 像素 的 代码 。 因 为 每 个 像素 只 能 具有 两 种 彩色 中 的 一 种 ,所 
以 总 共有 2° = 1024 种 不 同 的 上 下 文 。 对 于 一 个 给 定 的 上 下 文 ,由 于 每 个 像素 只 能 从 两 种 可 能 
的 彩 他 中 选择 ,用 哈 大 蛇 编 码 将 不 会 使 编码 效率 增加 ,这 是 因为 哈 大 芝 编 码 有 1 个 比特 的 最 小 
码 字 长 度 。 然 而 ,我 们 可 以 用 算术 编码 器 以 少 于 1 个 比特 编 但 该 像素 的 彩色 (8.4.2 E) I] 
每 个 上 下 文 ,算术 编码 器 用 不 同 的 概率 表 。 对 于 网 10.2 的 模板 ,我 们 将 会 需要 1024 个 概率 
Ko 假设 必须 存储 一 种 符号 (比如 , 慰 色 ) 的 概率 , 旦 可 以 计算 出 其 他 的 符 导 (比如 ,白色 ) 的 概 
率 ,那么 我 们 具 需 存储 1024 种 概率 。 





























x x x 


Bogan 


| x xlo] 























图 10.2 党 义 欲 编码 像素 (由 “0Q" 表 未) 的 上 下 文 的 模板 


在 MPEG-4 的 堪 状 编码 方法 中 ,图像 被 分 割 成 正方 形 的 块 。 闪 分 为 := 种 不 同类 出 的 块 透 
基 的 和 不 透明 的 块 , 以 及 在 物体 边界 上 含有 透明 和 不 透明 的 像素 的 边界 天 。 边 界 块 是 用 土 述 
方法 编 但 的 ,这 种 编码 方法 称 为 基于 .上 下 文 的 算术 编码 [30]。 
四 叉 树 编码 ”四 叉 树 通 过 把 不 同 大 小 的 不 重叠 的 方块 族人 形状 内 米 描述 物 抹 形 状 ,以 便 
尽 可 能 准确 地 描述 形状 。 通 常 ,方块 的 大 小 是 2 的 徊 。 我 们 定义 块 的 县 大 尺 二 和 坡 小 尺寸 
如 果 最 小 方块 的 八 才 是 -个 像素 ,我 们 就 可 以 准确 地 描述 形状 第: 步 ,把 最 大 尺寸 并 x 析 
像素 的 方块 “个 摊 一 个 地 放置 在 图 像 中 。 然 后 ,基于 均匀 性 准则 决定 是 大 需 要 进一步 分 割 一 
个 方块 ， 如 果 是 的 话 ,那么 就 要 用 尺寸 为 M/Z x M2 UP ARGS TER, AWER 
这 个 过 程 (图 10.3)。 根 据 均 勾 性 准则 和 最 小 的 方块 尺寸 ,这 个 过 程 牛 成 -个 精确 的 或 近似 的 
形状 送 近 。 均 匀 性 准则 定义 在 任何 给 定 的 方块 中 允许 错误 喜 尖 的 像素 的 个 数 m。 这 个 数 可 以 
是 应 定 的 :也 可 以 作为 当前 被 等 虑 的 方块 八 才 的 函数 而 变化 

亚 以 用 一 进 制 符号 编码 四 又 岩 。 我 们 以 深度 优先 的 方式 通 历 树 、 在 图 10.3 的 例子 中 ,1 
去 未 相关 的 方 和 不 再 进 - 步 分 制 ,0 表示 该 方 抉 被 进一步 分 着 ,并 且 接 下 来 的 册 个 符 寻 表示 这 
个 方块 的 子 方块 的 状态 。 递 归 地 重复 这 样 的 描述 。 描 述 完 这 个 椅 以 后 ,我 们 必须 对 舞 个 方 鼎 
指明 它 是 否 属于 该 物体 。 这 是 通过 为 树 中 的 得 个 端 节 点 发 送 一 个 二 进 制 符号 实现 的 。 在 图 
10.3 中 ,我 们 用 1 表示 属于 物体 的 方块 。 央 此 ,这 个 形状 码 沉 要 与 在 划 义 椅 码 中 所 得 到 的 1- - 
































样 多 的 符号 ， 对 形状 码 使 用 多 级 符 


(见习 题 10.6) 
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DB 











BA 





] 仅 用 -~ 个 四 叉 树 就 能 描述 一 个 图 像 内 的 几 个 物体 
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BE: LOTION 
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b) 


R 10.3 (a) -PERRA “MARTE RA A, (bA 


10.1.2 轮廓 编码 


寺前 已经 发 表 了 许多 关于 基于 
一 研究 :对 于 物体 边 幅 的 无 


[18,s54,43,15]。 为 了 


REV BABA EVIE 
链 编码 ” 链 码 跟踪 4 
所 处 位 置 的 方向 进行 编码 ( 


述 该 树 的 馈 和 每 个 方块 标号 的 相关 四 丸 树 ,由 此 可 以 和 





识别 的 目的 ,开发 了 如 
状 表示 成 为 可 能 [61 


分 链 色 )[9]。 微 分 链 码 的 效率 较 高 ,因为 它 


们 考虑 -个 像素 是 有 4 或 8 
ERS. ÆR 10.4 4 


5] 











题 一 一 例如 ,网 10.4 中 的 白色 像素 有 它们 自 
WFR TE NASBA. TTJ 


WELS]. GENSAT AR Sa AR 5 1 BEE BE È 
以 在 内 链 码 编码 前 对 轮廓 进行 预 处 理 (例如 
器 分 开 若 虑 的 ;在 那样 的 情况 下 , 链 编码 可 

Freeman [14] 最 时 提出 了 将 链 编码 用 了 
当 多 的 注意 [50, 33, 41, 291。 曲 线 是 用 格 机 
表示 。 由 于 假设 平面 曲线 是 连续 的 , 格 点 之 间 的 增 
个 比特 表示 增 量 。 对 于 边界 形状 的 盛 损 编 iI 


率 [11]， 


对 这 种 基本 方案 已 经 有 了 许多 扩展 ,如 广义 链 码 [50], 通 过 使 
率 的 链接 改善 了 编码 的 效率 。 在 参考 文献 [29] 








F 轮 廓 的 形状 表示 和 编码 方面 的 文章 。 不 同 的 应 | 
机 和 有 损 编码 , 开 


A 


码 ,需要 每 边界 像素 1.2 利 1.4 比特 之 问 的 了 


ERER 

















发 展 了 这 
发 了 链 编 码 器 [14,11] 以 及 多 边 形 和 高 阶 的 逼近 
傅 里 叶 描述 符 那 样 的 形状 表示 ,使 平移 不 变 ,旋转 





细 体 的 轮廓 。 编 码 物体 边界 上 的 起 点 坐标 后 , 链 码 对 下 一 个 边界 像素 
图 10.4)。 链 码 可 





以 编码 轮廓 的 方向 (直接 链 码 ) 或 方向 的 变化 ( 微 
门 利 用 了 相继 链接 之 问 的 统计 相关 性 。 算 法 以 它 


个 相 邻 像素 (对 于 和 矩形 格 栅 ) 还 是 有 6 个 相 邻 像素 (对 于 六 边 形 格 
我 们 定义 边界 像素 是 物体 的 一 部 分 ;然而 ,这 会 引起 “ 双 相 





EAR” IE 
己 的 一 组 边界 像素 。 当 两 个 物体 相 接 触 时 ,这 种 
1 种 定义 像素 之 间 物 体 边界 的 算法 可 避免 这 种 问题 
门 准确 地 描述 给 定 的 轮廓 。 然 而 ,我 们 可 
FF 涡 或 量化 )。 有 时 ,这 种 防 处 理 并 不 是 与 链 编 码 
认为 是 有 损 编码 器 。 
边界 量化 和 编码 ,这 在 过 上 40 多 年 中 
交点 方案 量化 的 [14 
被 限制 于 8 个 








Ph 已 引起 了 相 
,量化 后 的 曲线 用 一 申 增 量 
相 邻 的 格 点 ,因此 可 以 用 三 
均码 





























不 
ph, 提 出 了 使 用 链 但 和 





同 长 度 和 不 同 角 度 分 辨 
中 的 图 形 来 增加 编码 效 
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率 的 方案 。 对 链 码 的 理 沦 性 能 也 已 经 产 牛 了 兴趣 。 在 参考 文献 [33i 路 ,比较 了 不 同 量化 方案 
的 性 能 ,而 在 参 状 文献 [41] 中 ,人 研究 了 具有 项 处 理 的 某 种 链 码 的 率 失 真 特性 。 













































































FR 2 1 
4 o 
3 2 1 
直接 链 码 
-3,-3,4.4,-1.-2,-2.0.2 
1 1-2.-2.2.1.1,2.2.4.3 
PES: 
3.0.7 1.03,-1.0,.2.2.- 1. 
2, 7 10.4,—1.0,1.0,2.- 1 
-jo 起 始点 




















4 部 域 


8 领域 


图 10.4 其 有 4 邻 域 和 8 邻 域 像素 的 链 码 。 我 们 给 出 了 8 连接 链 的 间接 链 码 和 微分 
链 汉 的 例子 。 这 两 种 码 的 第 -个 符号 是 相间 的 ,定义 了 起 始 方 向 ,微分 碍 
的 后 绞 符号 是 通过 把 最 近 的 也 编 始 符号 的 方向 对 准 方向 星 的 0 方向 生成 的 


为 了 提 商 编码 效 诗 ,一 些 链 码 也 含有 轮廓 的 简化 [421。 这 类 似 于 用 形态 学 滤波 器 滤波 物 


体 的 地 状 ,然后 用 无 损 链 码 编码 。 简 化 相当 于 


表示 ,而 以 下 的 形状 编码 算法 允许 有 损 形 状 表示 
多 边 形 壳 近 ”对 基 于 物体 的 分 析 与 合成 编码 开发 了 基于 多 边 形 的 形状 表示 718,19]。 物 











像 编码 中 的 幅度 明 化 。 链 码 限制 于 尤 损 形 状 





体形 状 是 用 连续 的 线段 链 通 近 的 (图 10.5)。 从 直觉 上 ,我 们 可 以 设想 多 边 形 表示 只 用 儿 个 线 


段 米 描述 具有 直 边 缘 的 几何 物体 是 很 有 效 的 。 
看 起 来 很 自然 的 边界 。 





和 线 的 边界 将 需要 许多 的 线段 ,以 便 给 出 一 个 





ERR 一 、 





dowi © dmax 







原 轮廓 - 


dana > nax 











fa) 


图 10.5 HRMS VIER. mT WUE dis- 


(b) 


在 精细 化 


轮廓 描述 期 间 ,点 妃 被 加 在 具有 最 大 必 的 位 置 处 





由 于 多 边 形 表示 倪 许 有 损 形状 编码 ,我 们 必须 定义 一 个 质量 测度 ,以 便 可 以 计算 编码 形 





状 的 质量 。 通 常 是 采 














原始 轮廓 与 近似 轮 廊 位 置 之 间 的 最 大 欧 几 里 得 距离 dyno 


SUL AEA LRT OR WRAP RAE, LADEN 
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采用 为 所 有 起 点 计算 这 种 表示 并 从 中 选择 -个 效率 最 高 的 起 点 的 办 法 ,而 是 通过 用 那些 具有 
最 大 距离 的 防 个 轮廓 点 作为 起 点 进行 计算 的 。 然 后 ,在 多 边 形 与 边界 之 车 的 逼近 溃 差 为 最 大 
的 地 方 加 入 另外 的 点 到 多 边 形 上 。 图 10.5(a 中 ,初始 通 近 全 先 被 点 C 扩展 ,然后 被 点 D 扩 
E EARNER ANERER NTR dao E 10.5(b) 示 出 了 点 E 被 加 在 测量 到 最 
大 误差 上 .的 通 近 中 。 先 进 的 算法 选择 在 给 定 的 比特 预算 下 使 逼近 误差 为 最 小 的 顶点 ,方法 
古 把 顶点 最 佳 地 放置 在 轮廓 二 或 沿 轮 廓 的 一 个 这 条 内 [30,32]。 

编 玛 器 必须 把 线段 的 顶点 坐标 传送 给 解 介 器。 在 编码 了 一 个 顶点 的 绝对 位 置 后 ,后 续 栅 
点 的 坐标 是 被 差分 编码 的 ,用 图 像 信 十 作为 顶点 坐标 的 上 限 。 

对 于 无 损 形状 编码 ,多边形 表示 需要 许多 顶点 。 对 于 无 损 编码 , 链 码 通常 优 于 多 边 形 表 
示 , 而 对 于 有 损 编 码 , 多边形 表示 的 效率 更 高 。 

ARH ” 样 条 函数 是 由 选择 的 控制 点 定义 的 。 我 们 可 以 用 样 条 函数 由 离散 点 计算 连续 
曲线 。 我 们 把 连续 边界 坐标 表示 为 轮廓 长 度 ; 的 函数 ,如 e(1) =Tal) ya] TAR ni 
节点 ps = (x,y, RR PRE A: 


elt) = Sp. aft) (10.1.4) 
样 条 函数 B., 称 为 B 样 条 ,这 里 ， 字母 天 By RANE (basis) B,,, 取决 于 两 数 的 阶 gq 


和 轮廓 上 节点 的 位 置 t,。 它 是 由 以 下 的 递 妇 方程 定义 的 ; 


G-t): Bagi) Cinsa m 6) t By a), 
一 bn ty 





























B,,,(4) = 





q>9 (10.1.5) 


neg Z faai 
和 
tt 
Boalt) = 人 其 他 

10.6 示 出 了 对 于 相等 间隔 的 节点 不 同样 条 哺 数 的 形状 .节点 也 可 以 在 轮廓 上 以 任意 闻 隔 放 
置 ,并 允许 节点 重合 4 阶 样 条 函数 的 忻 质 是 它 前 面 的 9 - 1 阶 导数 在 轮廓 上 是 连续 的 。 如 所 看 
到 的 ,公式 (10.1.6) 是 一 个 简单 的 保持 函数 。q 阶 的 样 条 函数 是 由 4 - 1 阶 样 条 函数 与 0 阶 样 条 
函数 的 卷 积 生成 的 .由 于 样 条 函数 的 长 度 是 有 限 的 ,点 cO 的 位 置 受 9 + 1 个 点 的 影响 ,这 里 ， 
4 是 样 条 的 阶 数 ,经 常 使 用 的 是 二 阶 和 三 阶 样 条 。 对 于 形状 编码 ,我们 必须 用 7 个 轮廓 点 逼近 
离散 轮廓 e( 4.): 


(10.1.6) 














c(h) = Sip. Boalt), Ogi<l (10.1.7) 


当选 择 季 点 数 N 小 于 轮廓 点 数 了 时 ， 我 人 ] 可 以 计算 节点 p, 。 在 这 种 情况 下 ,我们 用 最 小 平方 法 
解 这 个 方程 组 。 


INA LALLA. 


mal fe Tina bie? i fisi he2 iig no hai daz fs hag 








10.6 BYR 9 = 0,1( 线 性 的 ),2( 二 阶 的 ),3( 三 阶 的 ) 的 具有 等 距 节 点 的 样 条 函数 
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在 参考 文献 [25] 中 ,用 B 样 条 曲线 通 近 边界 .为 了 寻找 控制 点 的 最 件 位 置 ,通过 使 边界 与 
逼近 之 间 的 MSE 为 最 小 来 公式 化 最 优 过 程 , 当 平 渭 边 界 是 主要 问题 时 ,这 是 一 个 合适 的 日 标 
函数 .然而 , 当 所 得 的 控制 点 需要 编码 时 ,必须 考虑 编码 成 木 与 所 产后 的 失真 之 间 的 平衡 .通过 
选择 MSF 作为 失真 测度 并 人 允许 控制 点 位 寺 平 面 的 任何 位 置 ,所 得 到 的 最 优 问 题 足 连续 和 凸 出 
的 ,并 用 可 以 容易 地 求解 然而 ,为 了 高 效 地 编码 所 产生 的 控制 点 的 位 置 ,必须 量化 它们 , 央 此 
就 会 失去 解 的 最 优 性 -众所周知 ,离散 最 优化 问题 (被 其 化 的 位 置 ) 的 最 佳 解 不 必 接近 相应 的 
连续 问题 的 解 : 在 参考 文献 [30] 中 ,给 出 了 使 用 样 条 的 形状 编码 器 ,编码 在 运算 率 失真 的 意义 
士 巧 最 传 的 ;也 就 是 说, 控制 点 的 放置 要 求 对 于 给 定 的 失真 使 所 需 的 比特 率 为 最 小 。 

BHAT 。 为 了 识别 方面 的 应 用 ,开发 了 传 里 时 描述 符 ;在 这 种 应 用 场合 堪 状 是 非 
常 关键 的 - 传 里 叶 描述 符 使 封闭 轮廓 的 平移 不 变 ,旋转 不 变 和 缩放 不 变 表示 成 为 可 能 [60] ,有 
不 同方 法 定义 封闭 轮廓 的 储 里 叶 撕 述 符 。 几 - .个 简单 的 描述 符 ,我 们 在 图 像 平 身上 顺 叶 针 地 采 
样 共 及 个 像素 的 轮廓 上 的 二 维 坐 标 (%, ,y, )。 我 们 把 坐标 表示 为 复数 z = x。 4 f+ 9, FET 
FAG WEI ER BON; 






























































Bm) = FC) «ein (10.1.8) 

SPE AE HAA) Bak Se PrE M FRM Se (ERS SLAF a EOP A 

从 公式 (10.1.8) JUA HE ,轮廓 的 平移 将 只 影响 系数 Z(0) , 即 pC 值 ,轮廓 的 缩放 将 使 所 
有 的 系数 乘 以 缩放 因子 .轮廓 的 旋转 将 平移 傅 里 叶 系数 的 相位 但 不 影响 它们 的 幅度 。 

A -种 计算 侍 里 叶 描 述 符 的 方法 是 把 二 维 坐标 序列 (x ,y, ) 变 换 成 一 个 有 序 序列 
Ch One = Cia = an )), BT Cag yo) = Crys yy EH One N 为 轮廓 点 。 项 
Cynon = Ya Catas — Hn) FARE HIB AF TD RE A 0 JC ESR PY RGE E E RER HEARE 
较 低 的 系数 。 这 一 部 分 是 由 于 DC 值 描述 一 个 贺 图 , 具有 恒定 的 方向 变化 , 而 不 是 在 公式 
(10.1.8) 中 的 直线 。 

为 了 保持 形状 的 主要 特征 ,只 有 大 的 全 里 叶 系 数 必须 保留 。 傅 里 叶 描 述 符 在 重建 仅 用 几 
个 系数 的 类 侯 多 边 形 的 形状 时 效率 不 高 。 这 就 是 它们 在 编码 效率 方面 从 来 部 不 很 以 有 竞争 力 
的 原因 之 一 。 
10.1.3 形状 编码 效率 的 评价 准则 

FEAR HY DAFA: BER Pe A E: 

© PERIERE RE eae RAR ERC ES 

© TPR RUF TN AF AT REA RS FLAT BERR IERE A ,或 者 部 分 物体 与 原始 形状 断 开 。 

通常 用 两 种 质量 测度 客观 地 评价 编码 的 形状 参数 的 质量 。 峰 值 催 差 d. 足 每 个 编码 的 轮 
廓 点 与 原始 轮廓 上 最 接近 的 点 之 间 的 最 大 欧 几 蛙 得 距离 。 由 于 物体 轮廓 的 变化 ,这 种 测度 能 
够 宪 易 地 说 明 形 状 质量 。 然 而 ,如 果 有 损 形 状 编 但 造成 了 物体 折 扑 结构 的 改变 ,峰值 偏差 di 
就 不 是 “个 有 用 的 测度 。 第 二 种 测度 依 和 题 于 届 导 :物体 的 像素 数 和 它 的 编码 表示 。 度 量 由 
是 编码 的 形状 被 错误 地 表示 的 像素 数 除 以 原始 形状 的 总 像素 数 ; 即 d, RT KRR. 
由 于 不 同 物体 可 以 具有 很 不 同 的 轮廓 像素 与 内 部 像素 之 比 ,对 于 d, 一 个 给 定 的 值 只 允许 我 
们 比较 同 -PARRE MEME d, 本 身 不 提供 是 够 的 关于 主观 形状 质量 的 信息 , 因 
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为 一 个 给 定 d, 的 主观 含义 不 仅 依 束 于 物体 的 大 小 也 依赖 于 轮廓 的 长 度 。 

几 个 序列 的 主观 评价 表明 ,具有 再 近 误 差 dio > 3 像素 的 形状 表示 对 视频 是 根本 没 用 的 ， 
与 它 的 分 辨 率 无 关 。 已 经 发 现 , 在 CIF 分 辩 率 (352 x 288 个 像素 ) 下 ,一 个 峰值 距离 daa = 1.4 
像素 足以 允许 适当 地 表示 低 码 率 视 频 编 码 应 用 系统 中 的 物体 。 

主观 评价 也 表明 , 当 比 较 不 同 的 基于 位 图 或 基于 轮廓 的 形状 编码 器 时 ,上 述 两 个 客观 测度 
真实 地 反映 了 主观 质量 。 对 于 有 损 形状 编码 ,基于 位 图 的 形状 编码 器 产生 块 状 的 物体 形状 ,而 
基于 轮廓 的 编码 器 产生 的 物体 形状 将 表现 出 曲线 失真 ,尤其 在 物体 的 拐角 处 或 多 边 形 的 边缘 
处 。 由 于 这 两 类 形状 编码 器 产生 不 同 的 失真 (图 10.7) ,属于 不 同类 的 算法 之 间 的 比较 必须 主 
观 地 进行 。 




















图 10.7 使 用 基于 位 图 的 ( 左 ) 和 基于 轮廓 的 ( 右 ) 形 状 编码 器 
的 有 损 编 码 。 形 状 描述 在 上 面 图 像 中 的 两 个 儿童 


10.2 对 于 任意 形状 区 域 的 纹理 编码 


对 于 任意 形状 区 域 的 纹理 编码 有 两 类 算法 ; 

1. 在 第 一 类 中 , 我 们 外 推 区 域 的 纹理 以 填充 一 个 矩形 。 然 后 , 使 用 一 个 矩形 区 域 纹理 的 
编码 算法 编码 这 个 矩形 。 在 10.2.1 节 中 给 出 了 例子 。 这 些 算法 - 般 是 快速 计算 的 , 且 
会 产生 与 矩形 中 的 像素 一 样 多 的 系数 (与 第 二 类 算法 比较 , 这 是 它 的 一 个 缺点 )。 

2. 在 第 二 类 中 ,直接 用 一 个 适应 于 区 域 形 状 的 变换 来 编码 该 区 域 的 像素 。 因 此 我 们 计算 
与 区 域 中 像素 一 样 多 的 系数 。 在 10.2.2 节 中 将 给 出 例子 。 


10.2.1 纹理 外 推 


纹理 外 推 或 填充 算法 在 区 域 周围 用 一 个 边界 框 来 定义 欲 编码 的 纹理 区 域 。 我 们 称 属于 区 
域 的 像素 为 不 透明 的 ,而 称 在 区 域外 但 在 边界 框 内 的 像素 为 透明 的 ,因为 它们 对 于 解码 器 来 说 
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十 不 可 见 的 。 边 界 椎 的 纹理 将 用 任何 适 于 编码 矩形 区 域 纹理 的 算法 进行 编码 ,例如 DCT 或 小 
波 变换 。 图 10.8 示 出 了 … 个 区 域 的 边界 框 。 这 个 边界 椎 被 加 以 扩展 ,以 使 使 它 的 宽度 和 高 度 
适 于 纹理 编码 算法 。 如 果 采 用 DCT, 我 们 可 以 扩展 这 个 矩形 ,使 它 的 宽度 和 高 度 为 8 或 16 个 
像素 的 倍数 。 














边界 杠 





HS 10.8 ”物体 或 感 兴趣 区 域 的 外 接 年 形 被 扩展 .使 扩展 后 
边界 框 的 边 长 为 8 的 倍数 ,以 便 进行 DCT 编码 


出 于 解码 器 将 名 略 所 有 透明 像素 的 纹理 ,所 以 定义 边界 框 内 的 透明 像素 使 它们 不 会 无 必 
妆 地 增加 码 率 。 理 想 情况 下 ,我们 外 推 区 域 的 纹理 ,使 信 叶 扩展 到 透明 像素 而 不 产生 高 频 分 
草 ， 这 通常 把 设置 透明 像素 为 0 或 255 排除 在 外 。~- 个 最 简单 的 方法 是 把 纹理 置 为 该 区 域 的 
或 机 邻 不 透明 像素 的 纹理 值 的 平均 值 。 另 外 ,可 以 把 低 通 外 推 滤波 器 应 用 于 这 些 透明 像素 。 
把 每 个 透明 像素 设 为 它 的 4 个 相 邻 像素 的 平均 。 这 个 过 程 从 边界 框 的 一 角 开始 ,并 以 扫描 行 
MERRI Fo 


10.2.2 直接 纹理 编码 


为 了 把 欲 传输 的 系数 的 数目 限制 为 必须 编码 的 像素 数目 ,人 们 开发 了 几 种 计算 任意 图 像 
区 域 变换 的 算法 。 从 一 个 图 像 区 域 的 边界 框 的 DCT 开始 ,Cilge 计算 -- 个 存 该 图 像 块 上 为 正 交 
的 变换 [ 16]。 所 得 到 的 变换 计算 出 与 出 像 块 中 像素 个 数 一 样 多 的 系数 。 而 旦 , 它 利用 了 相 邻 
像素 之 问 的 空间 相关 性 。 对 于 图 热 的 每 个 新 的 形状 ,必须 计算 一 个 新 的 变换 ,使 得 这 种 方法 的 
计算 基 特 划 大 。 

形状 自 适应 DCT(SA-DCT) 采用 一 维 DCT 变换 , 计算 起 来 快 得 多 。 首先, 我 们 把 -个 图 
BRM BRE A HAS Bl Led FCA 10.9(b)) [55]。 然后 按照 每 全 的 长 度 应 用 一 维 DCT。 
在 第 二 步 中 , 计算 出 来 的 DCT 系数 被 水 平地 移 到 块 的 左边 界 (图 10.9(e) )。 依照 行 中 DCT 
系数 的 个 数 的 长 度 再 一 次 应 用 一 维 DCT。 最 后 ,以 与 常规 二 维 DCT 系数 一 样 的 方式 对 这 些 
系数 进行 量化 和 编码 。 由 于 DCT 长 度 不 同 ，SA-DCT 不 是 正 交 的 . 而且， 移动 像素 不 允许 我 
们 充分 利用 相 邻 像素 之 间 的 空间 相关 性 。 因 此 ，SA - DCT 不 如 Gilge 变换 有 效 。 与 填充 比较 ， 
这 个 比较 复杂 的 算法 的 增益 , 对 于 相同 的 比特 率 在 一 个 图 像 块 上 测 得 的 PSNR 平均 为 
1~3 dB, 

小 波 编码 器 也 可 以 适用 于 任意 形状 的 区 域 [36]。 为 了 计算 小 波 系数 ， 图 块 边界 上 的 
像 信 号 必须 周期 地 且 对 称 地 扩展 。 由 于 没有 像素 被 移动 , 因此 保留 了 相 邻 像素 之 间 的 空间 
SHE. 
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图 10.9 一 个 形状 自 适应 的 DCT 需要 长 度 为 n 的 变换 ;a) 原始 图 


像 块 ;(b) 牌 直 移动 的 像素 ;(c) 在 垂 家 一 维 DCT 之 后 DCT 系 
数 的 位 置 ;(d) 在 水 平一 维 DCT 之 前 DCT 系 数 的 位 置 ;(e) 水 
平移 动 的 DCT 系 数 ;《f) 在 水 平 DCT 之 后 PCT 系数 的 位 管 


10.3 形状 与 纹理 联合 编码 


这 种 形状 编码 技术 是 受到 电影 和 TV 演播 室 所 用 的 蓝 己 技术 的 启发 面 产生 的 。 欲 编码 的 
物体 放 在 静止 的 单 色 背 景 上 。 背 景 彩色 必须 在 物体 纹理 所 占据 的 彩色 空间 之 外 。 通 常 ,高 饮 
利 度 的 彩色 (例如 纯 蓝 满足 这 ~ 要 求 。 由 于 形状 信息 作为 纹理 信息 的 一 部 分 进行 编码 ,我 们 
有 时 称 这 种 编码 方法 为 隐 仿 的 形状 编码 。 我 们 给 出 利用 这 一 特性 的 两 种 编码 算法 。 

目前 ,GTF89a[17,4J] 被 用 于 环球 网 应 用 系统 中 ,允许 描述 任意 形状 的 图 像 物体 。 具 有 最 多 
256 色 的 图 像 基 于 -- 个 称 为 LZW( 由 作者 Lempel, Ziv 和 Welch 而 得 名 ) 的 无 损 压 缩 方 案 进行 编 
码 。 这 种 特 狐 的 实现 称 为 [Z78. 在 GIF 文件 头 中 ,可 以 把 这 256 种 彩色 之 一 声明 为 透明 色 。 
所 有 具有 这 种 彩色 的 像素 都 不 会 显示 出 来 ,因此 它们 看 起 来 是 透明 的 。 

这 种 定义 透明 彩色 的 概念 也 被 引入 视频 编码 。 用 基于 帧 的 编码 器 编码 视频 信号 。 色 度 键 
(在 景 色 ) 被 传送 到 解码 器 。 解 码 器 对 图 像 进行 解 码 。 与 色 度 键 具有 相似 彩色 的 像素 被 认为 是 
透明 的 。 骆 则 ,像素 属于 物体 [6,22,20]。 由 于 形状 信息 通常 是 由 业 采 样 色 度 信号 携带 的 ,这 
种 技术 不 适合 无 损 形状 编码 。 因 为 形状 信息 是 被 能 人 在 纹理 中 的 ,所 以 只 要 存在 纹理 量化 ,这 
种 丧 状 编码 就 是 有 损 的。 这 种 方法 的 一 个 最 重要 的 优点 是 它 的 低 计算 和 算法 复杂 性 。 只 要 考 
虑 编码 效率 ,这 种 隐 含 的 形状 编码 器 就 比 直接 的 形状 编码 加 纹理 编码 (例如 SA-DCT 或 具有 
DET 的 低 通 外 推 ) 需 要 更 高 的 码 康 。 


10.4 基于 区 域 的 视频 编码 


大 多 数 图 像 和 视频 编码 器 都 为 了 编码 效率 而 做 了 优化 。 图 像 和 视频 的 质量 是 由 PSNR 测 
车 的 。 已 经 证 明 简单 的 PSNR 测度 不 能 很 好 地 记录 人 类 视觉 系统 的 特性 。 在 低 比特 率 下 这 变 
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得 非常 明显 ,此 时 块 失真 使 图 像 变形 ,但 并 不 造成 低 的 PBNR。 基 于 区 域 的 图 像 和 视频 编码 ,也 
就 是 所 谓 的 第 二 代 图 像 和 视频 编码 [ 34] ,试图 给 予 HVS 以 特别 的 关注 。HVS 的 性 质 导 致 以 下 
的 基本 要 求 ,这 些 要 求 为 设计 这 些 算法 时 做 出 选择 黄 定 了 基础 [59]: 

© 边缘 和 轮廓 信息 对 于 人 类 视觉 系统 是 非常 重要 的 ,是 我 们 的 感觉 所 依赖 的 。 

e 纹理 信息 具有 相对 的 重要 人 性 , 当 与 轮 赃 信息 在 一 起 时 会 影响 我 们 的 感觉 。 

在 这 些 假设 的 基础 上 ,基于 区 域 的 视频 编码 重 注重 编码 轮廓 而 不 是 编码 纹理 。 当 确定 重 
要 的 轮 廊 时 ,运动 ( 即 静止 的 或 运动 的 物体 ) 是 不 考虑 的 。 

基于 区 域 的 视频 编码 器 把 每 个 图 像 分 割 为 相似 纹理 的 区 域 。 由 于 轮廓 被 认为 是 非常 重要 、， 
编码 器 以 高 精度 传送 区 域 的 轮廓 。 区 域 的 纹理 是 用 原始 区 域 的 纹理 的 平均 值 近似 的 。 图 10.10 
示 出 一 个 被 分 割 为 区 域 的 图 像 。 不 同 的 分 割 结果 取 决 于 相似 性 准则 定义 的 精确 程度 和 最 小 区 
域 尺寸 。 与 低 码 率 下 的 基于 DCT 的 图 像 编码 器 比较 ,这 种 编码 器 不 产生 任何 块 效应 。 然 而 ， 
平坦 的 纹理 表示 会 产生 一 类 某 些 人 认为 更 讨厌 的 新 的 失真 。 在 高 码 率 下 ,基于 DCT 的 编码 明 
显 优 于 基于 区 域 的 编码 ,因为 基于 区 域 的 编码 需要 传输 许多 轮 麻 。 




























































































10.10 图 像 “摄影 的 人 "被 分 割 成 几 个 区 域 。 每 个 区 域 由 它 的 轮廓 和 原始 纹理 的 平 

均值 表示 。 改 变 分 制 算 法 的 参数 可 以 实现 不 同 分 割 (需要 不 同 的 编码 数据 量 ) 
可 以 把 这 种 概念 扩展 到 视频 编码 [53]。 为 了 诚 少 形状 编码 所 需要 的 码 率 ,区 从 一 幅 图 像 到 
幅 图 像 进行 区 域 跟 踪 。 把 具有 类 似 的 或 相同 运动 的 区 域 率 合 在 一 起 。 对 于 这 个 新 的 图 像 ， 
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编码 器 传送 当前 图 像 中 区 域 的 运动 ,它们 形状 的 变化 以 及 新 出 现 的 
10.5 基于 物体 的 视频 编码 


区 域 。 也 传送 纹理 值 的 变化 - 


基于 物体 的 分 析 合 成 编码 (OBASC?[39 1 按照 二 维和 -= 维 运 动 模 型 定义 均匀 运动 的 物体 。 
与 基于 区 域 的 编 反 比较 ,OBASC 不 进一步 把 物体 分 割 成 癌 类 纹理 的 区 域 , 从 而 省 去 了 形状 参 


数 的 传输 。0BASC 把 序列 中 的 每 个 图 像 划 分 成 均匀 运动 的 物体 
形状 和 彩色 的 :个 参数 集 Alm), Mm) A S(m)i 
和 运动。 彩色 参数 表 东 物体 表面 的 亮度 以 及 色 度 反射 率 (在 证 
SH). 图 10.11 解释 了 OBASC 的 概念 和 结构 。OBASC 不 需要 如 在 
帧 存储 ,而 宕 要 一 个 存储 器 存 钮 欲 编码 利 传输 的 物体 参数 4 On) 
器 种 解码 器 中 的 参数 存 铺 器 包含 相同 的 信息 ， 首 过 估计 这 些 






































描述 每 个 物体 m。 运 动 参 
PAOLA 


;并 以 分 判定 义 物体 的 运动 、 
数 定义 物体 的 位 置 
P ,这些 有 时 称 为 纹 
基于 块 的 混合 编码 中 所 用 的 
M mR Sn). TES 





参数 集 , 图 像 合 成 计算 显示 在 角 






































而 器 的 模型 图 像 y 和。 存储 器 中 的 参数 集 和 当前 图 像 y ,是 图 像 分 析 的 输入 。 
信 源 模型 接收 机 模型 
i 当前 参数 i 
i, i 
RA, 国信 分 析 af +} 参数 编码 传输 信道 > 
| ji f $ 运动 4 | 
形状 好 
H EES + SRAN 
存 铺 的 参数 
合 BR 
ARER AR 
显示 


10.11 基于 物体 的 分 析 合成 编码 器 的 方 框 
图 像 分 析 的 任务 是 分 析 欲 编 但 的 当前 图 像 如 &,; 和 估计 每 个 


fs] 
Bik m 的 参数 集 Aa (m), 


和 em) 和 5;,,(m)。 在 当前 图 像 中 ,首先 检测 运动 的 和 静止 的 物体 。 对 于 运动 物体 ,估计 新 的 


运动 和 形状 参数 ,而 重新 利用 大 多 数 已 传输 的 彩色 参数 Si (m)。 运 
出 米 的 物体 记 为 MC 模型- 致 性 ) 物 体 。 在 图 像 分 析 的 最 后 -… 步 ,出 


输 的 彩色 参数 以 及 新 的 运动 参数 4.1(m) 和 形状 参数 M, a (m HR 





CMF) 的 区 域 只 由 二 维 形状 和 彩色 参数 定义 ,并 被 称 为 M 物体 。 利 
误差 ( 称 为 儿 何 失真 ) 不 影响 3 
立 的 ,办 为 基于 物体 的 图 像 表示 ,运动 补偿 项 测 图 像 看 起 来 像 真 实 的 
语义 上 上 是 不 正确 的 。 这 样 ,ME 物体 就 简化 成 那些 在 运动 补偿 和 形状 
六 4 之 闻 有 显著 差异 的 图 像 区 域 。 它 们 的 尺寸 偏 小 。 这 就 允许 我 从 























E 观 图像 质量 的 事实 进行 ME 物体 的 检测 。 


动 和 形状 参数 能 够 正确 估计 
除 不 能 由 MC 物体 月 
的 图 像 
用 模型 





日 以 前 传 
区 域 。 这 些 模型 失效 
物体 小 的 位 置 和 形状 
这 种 假设 对 OBASC 是 成 
像 。 然 而 这 种 图 像 可 能 从 
补偿 的 预测 图 像 与 当前 图 像 
以 高 质量 编码 MF 物体 的 彩 
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色 参 数 ,从 而 避免 主 观 上 的 量化 误 益 。 由 于 从 码 率 来 说 传输 彩色 参数 是 花费 大 的 ,MF 物体 的 总 
面积 不 应 该 超过 图 像 面 积 的 4% ,假设 得 率 为 64 kbps Heath CHP, WREN 10 Hz。 
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取决 于 物体 类 型 是 MC 还 是 Mk .每 个 物体 的 参数 集 是 由 采用 预测 编码 技术 的 参数 编码 进行 编 
码 的 {图 10.12)。 对 于 MC 物体 ,运动 和 形状 参数 被 编码 传输 和 解码 ; 而 对 MF 物体 ,形状 和 彩 镁 
参数 被 编码 、 传 输 和 解码 。 因 为 就 比特 率 面 言 编码 彩 伍 参 数 昨 昂贵 的 ,所 以 必须 联合 设计 参数 纺 
ADAIR OMT. BER, Ru ALR, 分 别 皮 示 运 动 . 形 状 和 纹理 码 率 ， 通 过 使 如 下 的 总 比特 率 为 最 小 : 

R= R, + Ry + Ry (10.5.1) 
TELA SE Me E FRENE C3 EAR E N E 


物体 类 型 MMF 














模式 信息 





编码 器 模式 控制 














优先 权 控制 —— 











当前 参数 


q 存储 的 参数 


图 10.12 ORASE: 的 参数 编码 


在 OBASC 中 ,可 以 道 过 比较 在 相同 的 图 像 质 量 下 编码 同 - .个 网 像 序列 所 此 要 的 比特 率 米 
判断 信 源 异型 的 适应 性 。 狗 像 质量 主要 是 受 检测 模型 失效 的 算法 和 编码 模型 失效 的 彩色 参数 
所 用 的 比特 率 影响 的 。 以 下 我 们 描述 用 种 基于 DBASC 发 展 起 来 的 信 源 俩 型 。 


10.5.1 信 源 模型 E2D 


柔性 一 维 物 体 (F2D) 信 源 模 型 假设 真实 物体 的 运动 可 以 由 平 少 的 位 移 矢 量 场 描述 。 这 个 位 
移 矢量 场 把 真实 物体 在 图 像 平 面 上 的 投影 移 到 它 的 新 位 置 ， 撩 量 场 为 每 个 属于 OTR TERRE ii 
上 上 的 投影 的 像素 定义 - -个 矢量 。 由 匀 夯 物体 在 赔 像 平面 于 的 投影 的 一 维 轮 廓 定义 物体 的 形状 。 

为 有 效 地 撕 述 物体 的 位 移 矢 量 场 , 对 这 个 场 进 行 于 采样 , ti 16 x 16 个 像素 仅 传输 一 个 
矢量 。 解码 器 通过 双 线性 内 搬 重 建 位 移 矢 景 场 ， 所 产生 的 平 沿 位移 矢量 万 使 我 人 能 够 描述 二 
维 物体 运动 以 及 物体 的 某 些 柔 性 变形 。 例如 ,信和 源 模型 F2D 非常 适 于 模拟 在 平坦 表面 上 运动 
的 一 片 橡胶 。 另 外 ,也 可 以 描述 橡胶 的 抗 伸 。 运 动物 体 的 形状 必用 多 边 形 通 近 描述 的 。 

基于 块 的 混合 编 但 使 用 运动 补偿 预测 ,由 第 上 帧 的 纹理 预测 当前 的 图 像 上 + 1 ,而 OBASC 
把 物体 的 纹理 存储 在 纹理 存储 器 中 (图 10.13)。 用 这 种 纹理 存储 器 改善 运动 市 偿 的 性 能 。 
图 10.14 示 出 了 依靠 法 波 器 级 联 的 运动 补偿 , 与 基于 块 的 混合 编码 所 做 的 一 样 。 区 像 上 的 运 
动 补偿 预测 ,是 通过 在 整 像素 运动 矢量 情况 下 从 图 像 4 -1 复制- -个 像素 ,在 具有 小 数 像素 精 
度 运动 失 量 的 情况 下 用 Am) 进 行 滤 波 来 计算 的 。 低 通 滤波 器 (4)- 一 般 是 作为 双 线 性 内 插 
实现 的 。 如 果 我 们 现在 用 帧 k 预测 帧 上 + 1 ,可 以 看 到 ,在 图 10.14 中 帧 + 1 的 像素 y, 是 通过 
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对 前 面 已 滤波 的 怖 下 的 像素 进行 泪 波 来 计算 的 。 因 此 , 当 我 们 预测 后 面 的 帧 时 ,用 泪 波 器 级 
联 进行 运动 补偿 预测 会 产后 损失 锐 度 的 图 像 。 
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图 10.14 基于 块 的 混合 编码 器 用 运动 补偿 滤波 回 的 级 联 实现 图 像 合成 
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用 纹理 存储 涡 可 以 避免 这 种 滤波 器 级 联 的 效应 (图 10.15)。 再 一 次 假设 ,这 个 纹理 存储 器 对 
于 帧 是 用 帧 让 的 纹理 初 妨 化 的 ,我 们 使 用 从 帧 天 -1 到 帧 的 位 移 矢量 场 D,(y), 以 便 计 算 运 
动 补偿 预测 邮 像 上 。 这 紧 求 对 于 一 个 小 数 像素 的 运动 矢量 ,每 像素 进行 一 次 滤波 器 运算 。 类 似 
地 ,我 们 可 以 用 级 联 的 位 移 矢量 场 Doa Cop) ,通过 直接 访问 纹理 存储 器 ,计算 运动 补偿 预测 图 像 
k+l, 让 一 次 ,对 十 一 个 小 数 像素 的 运动 矢量 ,我 们 仅 需要 每 像 崇 进行 -- 次 滤波 器 运算 ( 见 网 


10.15), 
1 
fs dQ 四 











Taith) 








Fer de) dr Bt 
图 10.15 使 用 纹 二 存储 器 通过 位 移 矢 量 场 的 级 联 进行 周 像 合成 (一 维 情况 ) 


10.5.2 信 源 模型 RID 和 F3D 


使 用 只 有 三 维 物体 模型 的 三 维 场景 模型 ,我 们 可 以 用 运动 的 刚性 三 维 模型 物体 (R3D) 更 
有 效 地 描述 和 模拟 真实 世界 的 物体 (5.3 节 )。 我 们 用 线 框 描述 模型 物体 的 形状 。 用 图 像 或 纹 
理 图 描述 物体 的 纹理 。 物体 可 以 用 公式 (5.3.9) AAR ye EOS fain ah, AT REAR 
拟 接 合 处 , 我们 允许 物体 由 几 个 连接 的 、 刚 性 的 部 分 组 成 [37]。 在 运动 和 形状 估计 和 补偿 后 ， 
检测 模型 失效 区 域 。 项 测 疼 像 与 原始 图 像 之 间 的 差 图 像 (图 10.16(a)) 用 - -MRE RENE 
值 进行 二 值 化 (图 10.16(b)) 7A ROMER AEB Ze AR > A 2 区 域 。 某 些 差别 是 由 
运动 补偿 中 的 小 误差 引起 的 (图 10.16(e) )。 我 们 认为 这 些 误差 是 几何 失真 ， 不 具有 主观 上 的 
重要 性 。 重 要 的 是 模型 失效 区 域 ,在 那里 图 像 的 内 容 改 变 了 。 这 些 区 域 超出 了 最 小 尺寸 , 并 
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具有 非 线 结构 的 形状 。 图 10.16(d) 示 出 了 由 皮 眼 、 嘴 运动 和 耳 饰 的 镜面 反射 引起 的 模型 失效 
(MF) 物体 。 我 们 对 模型 失效 区 域 (MoE) 仅 编码 其 形状 和 纹理 。 

由 于 模型 物体 的 表面 被 描述 为 线 框 ,使 得 物体 的 柔性 变形 很 简单 。 运 动 的 柔性 三 维 物 休 
(F3D) 的 信 源 模型 允许 线 框 的 控制 点 与 物体 表面 成 切线 运动 [45]。 我 们 用 二 维 位 移 矢 量 描述 
这 种 变形 。 这 些 位 移 矢量 使 我 们 能 对 真实 物体 的 局 部 变形 进行 补偿 。 描 述 整个 模型 物体 的 柔 
性 变形 可 能 需要 高 的 码 率 。 因 此 ,我 们 把 位 移 矢量 的 使 用 限制 于 MFwo 物 体 区 域 。 

































































(©) (d) 


图 10.16 模型 失效 的 检测 :(e) 缩 放 后 的 真实 图 像 * ,1 与 运动 及 形状 补偿 后 的 模 
型 图 像 Ye 之 间 的 差 图 像 ;(b) 综 合 误差 捷 膜 ; (6) 几何 失真 和 感觉 上 
的 不 相关 区 域 ;(d) HEME MEFs 指示 信 源 模型 R3D 的 模型 失效 的 区 域 

















如 在 前 面 几 段 中 所 描述 的 ,使 用 信 源 模型 F3D 要 求 在 第 一 步 中 估计 MGs 物体 和 MFmo 物 
体 。 用 于 估计 位 移 矢 量 的 图 像 分 析 的 输入 包括 MGrso 物 体 、MFao 物 体 以 及 真实 图 像 + 1( 图 
10.17)。 为 那些 投影 到 当前 ME 物体 区 域 上 的 顶点 估计 位 移 矢量 。 对 估计 的 位 移 矢量 进行 补 
偿 后 ,我 们 用 与 信 源 模型 R3D 一 样 的 算法 ,通过 再 次 检测 模型 失效 来 核实 这 一 步 图 像 分 析 。 图 
10.17 示 出 了 估计 的 位 移 矢 量 和 Mp ME BEE MEFso 物 体 通常 比 MFw 物 体 小 ,因为 柔性 位 移 
矢量 对 一 些 柔 性 变形 进行 了 补偿 。 由 于 编码 MCao 物 体 的 位 移 矢量 以 及 MFeo 物 体 的 纹理 和 形状 
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花费 较 少 的 比特 ,因此 不 采用 花费 较 大 的 MFwo 物 体 的 纹理 和 形状 ,采用 F3D 将 使 编码 效率 提高 。 
这 是 可 能 的 ,因为 如 果 它 们 减 小 了 MEF 物体 的 尺寸 , 则 码 率 仅 花费 在 位 移 矢量 上 。 当 编码 简单 
的 视频 电话 序列 时 ,把 使 用 RID 换 成 使 用 F3D, 码 率 将 从 64 kbps 降低 到 56 kbps[46,47]。 
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图 10.17 在 MFwn 物 体 区 域 估计 柔性 位 移 矢 量 。 这 通常 引起 MF 物体 尺寸 的 减 小 


OBASC 以 每 像素 1 比特 的 速率 编码 彩色 参数 ,这 比 通常 使 用 的 基于 块 的 混合 编码 器 的 每 
像素 0.1 ~0.3 比特 高 得 多 。 因 此 ,OBASC 表现 出 很 少 的 量化 效应 ,图 像 看 起 来 比 混合 编码 的 
图 像 更 尖锐 。 然 而 ,OBASC 对 图 像 分 析 的 依赖 性 强 。 必 须 正确 地 分 割 运动 的 物体 , 且 必 须 相 
当 精 确 地 估计 它们 的 运动 。 如 果 图像 分 析 失败 ,OBASC 就 不 能 用 必须 与 运动 和 纹理 参数 一 起 
传输 的 形状 参数 来 增加 编码 效率 。 相 反 地 , 它 可 能 需要 比 仅 传输 运动 和 纹理 参数 的 混合 编码 
器 更 高 的 码 率 。 由 于 缺 过 图像 分 析 的 健壮 性 ,OBASC 仍 是 一 个 需要 继续 研究 的 领域 。 

取决 于 应 用 的 信 源 模型 ,OBASC 把 高 达 80%% 的 码 率 用 于 对 模型 失效 的 编码 上 。OBASC 不 
需要 利用 任何 场景 知识 。 因 此 ,检测 模型 失效 的 算法 不 受 场 景 内 容 的 控制 。 为 了 把 关于 场景 
的 知识 包括 进来 ,我 们 必须 把 OBASC 扩展 到 基于 知识 的 分 析 合成 编码 (KBASC) , 它 为 有 效 地 
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编码 而 估计 场景 知识 。 


10.6 基于 知识 的 视频 编码 


KBASC 编码 器 是 基于 OBASC 的 。 另 外 , 这 种 编码 器 试图 识别 视频 场景 中 的 物体 (例如 
脸 )。 一 旦 编 码 器 识别 出 物体 , 它 就 把 物体 的 编码 模式 从 一 般 的 基于 物体 的 模式 切换 到 基于 
知识 的 模式 。 对 于 头 和 肩 的 场景 ,目的 是 要 实现 较 好 地 模拟 人 脸 , 并 利用 人 脸 位 置 的 知识 近 
制 编码 器 。 为 了 能 从 OBASC 自动 切换 到 KBASC,， 提 出 了 一 个 识别 脸 特 征 以 及 图 像 序列 的 脸 
模型 的 自 适应 算法 [28]。 首 先 , 我 们 必须 确定 想 用 KBASC 编码 的 人 眼 和 嘴 (图 10.18(a))。 第 
二 步 , 必须 使 脸 模型 适应 当前 描述 人 的 线 框 (图 10.18(b))。 例 如 , 我 们 把 人 脸 模型 “Candide” 
(图 10.18(e))T49] 并 人 物体 模型 。 我 们 可 以 水 平地 缩放 脸 模 型 以 匹配 两 眼睛 之 间 的 距离 , È 
直 地 缩放 脸 模型 以 匹配 嘴 和 眼 之 间 的 距离 ， 从 而 使 脸 模型 适应 图像 中 人 的 脸 。 最 后 ， 当 用 
OBASC 层 编码 时 , 必须 把 脸 模型 锋 合 到 用 来 描述 物体 的 线 框 模型 (图 10.18(d))。 




















© (d) 


图 10.18 (a) 首 先 ,确定 腿 和 嘴 的 位 置 ;(b) 用 人 的 物体 模型 作为 参考 ;(c) 相 对 于 这 个 图 像 缩 

放 脸 模型 ;( 相 最 后 ,在 线 框 的 验 区 域 (b) 切 开 一 个 开口 并 把 脸 模 型 锋 合 到 该 线 框 
一 旦 KBASC 检测 到 脸 , 它 的 编码 效率 就 会 比 OBASC 有 所 提高 。 一 个 原因 是 ,使 用 人 脸 模 
型 而 不 是 一 般 的 模型 改善 了 形状 表示 ,并且 人 允许 更 好 的 运动 补偿 。 知 道 脸 的 位 置 也 允许 我 们 
更 精确 地 定义 头 和 育 的 接合 处 ,这 再 次 导致 运动 估计 和 补偿 的 改善 。 最 后 ,我 们 可 以 利用 关于 
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人 脸 位 置 的 知识 以 基于 场景 的 方式 来 计算 模型 失效 。 我 们 在 脸 部 区 域 继续 使 用 灵敏 的 检测 算 
法 ,同时 可 以 把 脸 部 以 外 的 大 多 数 预 测 误差 归 因 于 几何 失真 以 及 照 庆 误 差 ,我 们 选择 忽略 这 些 误 
差 。 在 一 个 空间 分 辩 率 为 352 x 288 像素 帧 率 为 10 Hz 的 测试 序列 “Claire” 的 实验 中 , 信 源 模型 
F3D 的 模型 失效 平均 面积 是 3%。 当 我 们 使 人 脸 模型 适应 模型 物体 时 ,面积 减少 到 2.7%。 最 后 ， 
利用 人 脸 位 置 的 知识 检测 模型 失效 ,把 它们 的 面积 减少 到 2.5%, 而 主观 图 像 质量 没有 受到 损失 。 
相应 的 码 率 对 于 采用 OBASC 编码 器 的 F3D 是 57 kbps; 而 对 于 KBASC 是 47 kbps. 








10.7 语义 视频 编码 


前 面 措 述 的 视频 编码 算法 联合 使 用 当前 的 图 像 信 号 和 由 时 间 预 测 导 出 的 预测 图 像 信 号 来 描 
述 视频 序列 的 每 一 帧 。 语 义 视频 编码 用 具有 行为 的 模型 物体 描述 视频 序列 ,模型 物体 用 真实 物 
体 的 行为 来 代表 真实 物体 。 我 们 期 望 语义 编码 远 比 其 他 视频 编码 器 有 效 , 央 为 与 为 显示 物体 所 
需 的 像素 阵列 可 能 的 变化 相 比 较 ,大 多 数 物体 的 运动 和 变形 是 非常 有 限 的 。 视 频 表示 中 可 能 的 
变化 数 有 决定 了 视频 序列 的 最 大 炉 以 及 所 需要 的 比特 率 。 如 果 我 们 用 人 脸 模 型 考虑 KBASC, 脸 
部 表情 从 中 性 到 喜悦 的 变化 将 要 求 KBASC 编码 器 作为 MF 物体 传输 虹 的 区 域 。 具 有 适当 的 脸 模 
型 的 语义 编码 器 可 以 传输 命令 “微笑 ”, 而 解码 器 会 知道 如 何 使 人 脸 模型 变形 来 使 它 微笑 。 

对 于 人 脸 模 型 ,已 提出 描述 脸 部 表情 的 动作 单元 (AU)[7,2,13,35]。 动 作 单元 是 由 心理 学 
者 研发 的 脸 部 动作 编码 系统 (FACS) 导 出 的 [101。 该 系统 的 开发 是 为 了 “确定 所 有 可 能 的 视觉 
可 以 区 分 的 脸 部 运动 "。 所 用 的 测量 单元 是 动作 ,而 不 是 肌肉 单元 一 一 这 是 因为 FACS 联合 了 
一 种 以 上 的 肌肉 单元 来 表示 外 观 变化 。 该 系统 也 用 “动作 单元 "这 一 术语 ,因为 FACS 可 以 把 
不 止 一 种 动作 归 办 于 大 多 数 解 前 学 家 作为 一 种 肌肉 来 描述 的 东西 。 例 如 , 提 动 肩 毛 的 额头 肌肉 
被 分 为 两 个 动作 单元 ,取决 于 是 内 侧 还 是 外 侧 的 肌肉 拍 起 内 侧 还 是 外 出 的 腿 届 。 几 种 动作 单元 
可 以 同时 运用 ,以 便 产生 任意 一 种 脸 部 表情 。 有 46 种 考虑 脸 部 表情 变化 的 动作 单元 ,有 12 种 
粗略 描述 凝视 方向 的 变化 和 头 的 方位 的 动作 单元 。 图 10.19 示 出 了 几 种 动作 单元 的 例子 。 


ANN ad ba) sea had 


AU6 





图 10.19 在 参考 文献 [3] 中 使 用 的 六 种 动作 的 例子 。AU 1: 内 侧 眉毛 抬 高 。AU 2: 外 侧 丑 毛 抬 高 。AU 
RERE. AU 5: 上 有 眼 瞪 反 高 ( 睁 大 眼睛 )。AU 6: 脸 正治 高 。AU 7: 眼 瞪 收 紧 〈 部 分 斜视 ) 


为 了 把 这 种 系统 用 于 脸 部 动画 ,对 动作 单元 赋 以 幅 值 。 可 以 按照 对 人 进行 测量 的 动作 单 
万 的 丰 始 最 高 点 和 残余 来 模拟 脸 部 表情 暂时 的 行为 。 

FACS 系统 是 基于 人 类 心理 学 的 ,而 其 他 的 建议 定义 脸 上 的 特征 点 ,使 用 脸 部 动画 参数 
《FAP) 使 脸 生动 起 来 。 在 MPEG- 中 使 用 的 68 个 FAP 是 基干 最 小 可 察觉 动作 的 研究 ,并 且 与 
肌肉 动作 密切 相关 [27,58,21]。FAP 表示 了 全 部 的 基本 脸 部 动作 的 集合 ,包括 头 运动 . 舌 、 眼 
以 及 哗 的 控制 。 它 们 能 够 表示 自然 的 脸 部 表情 。 图 10.20 示 出 了 可 以 用 来 定义 头 形状 的 点 以 
及 可 以 活动 的 特征 点 。 
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11.5 








。 受 FAP 影 响 的 特征 点 
o 用 于 定义 头 形状 的 其 他 特征 点 


图 10.20 -MEAE MPEG-4 中 使 用 的 脸 的 特征 点 
FAP 系统 和 FACS 动画 的 脸 其 有 不 到 100 个 参数 。 已 经 发 现 能 够 用 不 到 2 kbps 把 FAP 或 
动作 单元 用 于 脸 的 动画 [37j。 然 而 ,还 不 清楚 如 何 生成 一 个 能 够 逼真 地 表现 脸 部 活动 的 脸 模 
型 。 形 状 , 运 动 和 照度 估计 仍 是 有 待 于 解决 的 问题 。 而 且 , 从 视频 序列 中 抽取 像 FAP 或 动作 








262 视频 处 理 与 通信 

















单元 那样 的 语义 参数 是 -一 个 困难 的 挑战 。 语 义 编码 要 求 非常 可 靠 的 参数 估计 ,因为 估计 的 误 
益 将 在 解码 器 中 改变 脸 部 去 示 的 语义。 高 兴 和 悲伤 两 种 表 倩 的 混合 可 能 阻止 有 效 的 通信 。 如 
RH KBASC 描述 交通 场景 ，- 个 误差 就 可 能 使 汽车 左 拐 而 不 吓 继续 往 前 并 。 

由 于 证 义 编码 器 允许 很 高 的 编码 效率 , 它 将 对 通信 信道 小 的 误 公 非常 敏感 。 比 特 差错 将 
不 会 导 笃 较 低 的 图 像 质 量 , 亿 会 改变 语义 的 内 容 。 

















10.8 分 层 编码 系统 


皮 决 于 场景 的 内 容 , 在 -个 基 王 物体 的 编码 迪 中 用 分 离 的 物体 模 塌 描述 每 个 运动 物体 可 
能 不 是 高 效 的 。 类 似 地 ,以 前 面 的 图 像 作为 参考 来 编码 序列 图 像 也 不 总 是 高 效 的 。 因 此 ,我 们 
需 鉴 用 适当 的 信 源 模型 集 来 编码 视频 序列 : 在 参考 文献 [38] 中 ,提出 了 分 层 编码 系统 (图 
10.21)。 这 种 系统 允许 应 用 不 同 的 信 漆 模型 和 不 同 水 平 的 坊 虹 理解 米 编码 图 像 序列 .以 便 保 
证 最 好 的 性 能 第 T 层 仅 传输 统计 上 依赖 于 像素 的 彩色 参数 ,而 第 工 层 允许 附加 传输 具有 固 
定 大 小 和 位 置 的 块 的 运动 参数 。 因 此 第 上层 对 应 图 像 编 码 器 或 混合 编码 器 的 工 帆 编码 器 , hi 
第 开 层 对 应 混 合 编码 器 的 P 帧 编 色 。 第 四 层 是 分 析 合成 编码 器 , 它 允 许 传输 形状 参数 ,以 便 描 
述 企 意 形 状 的 物体 。 这 里 ,第 下层 是 用 基于 PSD 信 源 模型 的 OBASC 编码 器 表示 的 。 
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图 10.21 分 层 编码 器 的 方 框图 
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使 用 三 维 信 源 模型 允许 和 KBASC 的 无 锋 合 成 。 在 第 下 层 中 ,为 了 应 用 基于 场景 的 物体 模 
型 (例如 , 脸 模 型 “Candide”), 从 视频 序列 中 抽取 并 传输 场景 内 容 的 知识 。 第 V 层 传输 描述 物 
VER RATA TE ACT AF o 

BAT RRS EL Bre TT FESS RTP SET A EI 
层 和 第 了 层 被 彻底 研究 过 ,因为 这 些 层 负责 对 基于 块 的 混合 编码 器 中 的 帧 内 模式 或 预测 模式 中 的 
块 进行 编码 。 第 II 层 和 第 亚 层 之 冯 的 切换 只 是 在 最 近 进 行 了 讨论 。 在 参考 文献 [8] 中 ,提出 了 一 
种 根据 成 余 编 码 误差 和 比特 率 的 选择 。 在 参考 文献 [4] 中 ,运动 物体 的 尺寸 决定 物体 的 编码 是 
基于 块 的 还 是 基于 物体 的 层 。 在 参考 文献 [28] 中 ,讨论 了 在 第 在 层 的 OBASC 和 第 忽 层 的 KBASC 
之 间 的 切换 。 在 参考 文献 [12] 中 ,研究 了 适 于 合成 到 分 层 编码 系统 中 的 语义 编码 器 ;与 可 .263 视 
频 编码 器 (第 I 尽 和 第 J 层 ) 比 较 ,这 种 编码 器 在 编码 头 肩 视频 序列 时 节省 35% 的 人 码 率 [22]。 





10.9 小 结 


在 不 章 中 ,我 们 讨论 了 基于 内 容 的 祝 频 编码 , 它 描述 各 个 视频 物体 而 不 是 整个 帧 。 

二 维 形 状 编码 [10.1 节 】 为 了 措 述 物体 ,我 们 用 阿尔 法 映射 定义 帧 中 的 每 个 像素 是 千 属于 

物体 。 另 外 ,阿尔 法 映射 允许 我 们 描述 视频 物体 的 任意 的 透明 度 。 为 了 高 效 地 传输 视频 物 

体 的 形状 ,我 们 考察 了 二 维 形状 编码 算法 。 基 于 位 图 的 形状 编码 器 用 基于 上 下 文 的 算术 

编码 器 描述 每 个 像素 是 省 属 于 物体 ,而 基于 轮廓 的 编码 器 用 多 边 形 、 样 条 或 链 码 描述 物体 

WRR ARMA ASPIRE AOR, FAM ,我们 倾向 于 以 高 质量 编码 形状 。 

纹理 编码 (10.2 节 ) 涉及 到 纹理 编码 ,我 们 现在 应 该 能 够 编码 任意 形状 区 域 的 纹理 。 

一 种 可 能 的 方法 是 低 通 外 推 纹理 使 它 充满 一 个 方块 ,该 方 央 能 用 如 DCT 之 类 的 标准 变 

换 编 码 器 编码 。 或 者 ,我 们 可 以 用 更 有 效 的 形状 自 适应 DCT 或 小 波 变换 ,它们 只 产生 

与 谷 编 峙 的 像素 一 样 多 的 系数 。 

o 基于 物体 的 分 析 合成 编码 (10,5 T) 基于 物体 的 分 析 合 成 编码 把 任意 形状 的 视频 物体 
合成 到 视频 编码 的 框架 中 。 由 于 一 个 物体 现在 被 描述 为 一 个 单元 ,运动 补偿 预测 图 像 
看 起 来 像 自 然 图 像 - 样 。 它 不 会 遭受 基于 块 的 运动 补偿 预测 图 像 的 块 失真 。 我 们 用 模 
型 失效 的 概念 来 确定 图 像 中 那些 不 能 以 足够 的 主观 质量 模拟 的 部 分 。 用 二 维和 三 维 信 
源 模型 已 经 实现 了 OBASC。 三 维 信 源 模型 被 扩展 到 基于 知识 的 编码 , 在 那里 编码 器 识 
别 预先 定义 的 模型 ,如 人 的 脸 ,以 便 更 有 效 地 换 述 视频 场景 (10.6 节 )。 语 义 编码 的 月 标 
是 用 高 级 描述 来 描述 视频 (10.7 节 )。 它 已 经 为 用 于 人 脸 进 行 了 开发 ,其 中 如 动作 单元 
或 FAP 的 参数 集 被 用 于 脸 的 动画 。 

。 分 层 编码 系统 (10.8 节 ) 最 后 ,我们 考察 分 层 编码 器 , 它 把 不 同 的 编码 模式 合成 到 一 个 

框架 中 。 分 层 编码 系统 基于 编码 效率 ,从 一 个 编码 器 切换 到 另 一 个 编码 器 ,保证 我 们 总 

是 用 最 有 效 的 信 源 模型 来 编码 视频 场景 。 

物体 分 市 和 运动 估计 ”有效 的 基于 内 容 的 视频 编码 取决 于 精确 描述 图 像 内 容 的 图 像 分 

煌 。 图 像 分析 包 括 分 制 物体 或 区 域 以 及 估计 它们 的 运动 的 问题 。 分 割 涉 及 把 初始 帧 划 

分 成 相关 的 纹理 或 运动 区 域 ,并 一 直 跟 踪 这 些 区 域 。 在 6.8 节 中 ,我 们 简单 地 考虑 了 把 

帧 分 割 成 相关 运动 区 域 的 问题 。 在 都 里 我 们 看 到 ,运动 估计 和 区 域 分 割 是 相互 关联 的 ， 

而 及 应 该 联合 地 进行 最 优化 。 分 割 和 跟踪 算法 的 更 实质 性 讨论 超出 了 本 书 的 范围 ; 感 
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兴趣 的 读者 可 以 从 参考 文献 [48,1,51,56] 开 始 进一步 研究 这 个 课题 。 


10.10 习题 
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10.15 


10.16 


阿尔 法 映射 是 什么 ”在 视频 中 如 何 使 用 ? 
两 种 主要 的 形状 编码 方法 是 什么 ? 讨论 它们 的 优点 和 缺点 。 当 形状 被 有 损 编 码 
BYE ATA fy Bl? 

形状 质量 的 客观 测度 是 什么 ? 

设想 一 条 1 个 像素 宽 的 对 角 线 。 当 我 们 用 具有 4 邻 域 或 8 邻 域 的 像素 定义 - -个 
物体 时 ,这 条 线 的 表示 如 何 变化 ? 像素 的 六 边 形 格 椰 的 优点 是 什么 ? 

对 于 图 10.4 中 给 出 的 例子 ,对 于 4 邻 域 的 直接 链 码 和 微分 链 码 是 什么 ? 

对 于 图 10.22 中 给 出 的 形状 ,导出 四 叉 树 表示 。 
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图 10.22 具有 二 个 用 不 同 肯 影 表示 的 不 同 物体 的 图 像 


对 于 公式 (10.1.8) 给 出 的 轮廓 的 等 里 叶 描 述 符 表示 ,证 明 ; (a) 轮 廊 的 位 移 将 仅 影 
响 系 数 Z(0) , 即 DC {is Cb) 轮廓 的 缩放 将 用 一 个 缩放 因子 乘 所 有 的 系数 ;(c) 轮 廓 
的 旋转 将 移动 傅 里 叶 系 数 的 相位 ,但 不 会 影响 它们 的 幅度 。 

解释 联合 形状 和 纹理 编码 算法 。 在 因特网 上 通常 用 什么 方法 ? 

如 何 扩展 像素 方式 的 形状 编码 器 ,使 它 不 仅 能 在 图 像 编 镁 器 中 也 能 在 视频 编 玛 器 
中 有 效 地 工作 ? 

任意 形状 物体 的 纹理 编码 方法 有 娜 些 ? 

两 种 主要 的 指导 基于 区 域 编码 器 设计 的 假设 是 什么 ? 

基于 物体 的 分 析 合成 编码 与 基于 区 域 的 编码 有 什么 区 别 ? 哪 种 编码 器 对 自然 视 
频 序 列 更 适合 ? 哪 种 对 卡通 宽 适 合 ? 解释 原因 。 
对 OBASC 最 常用 的 信 源 模型 是 什么 ? 

模型 失效 检测 忽略 几何 失真 。 儿 何 失真 指 的 是 什么 ? 它们 会 随时 间 积 累 吗 ? 
解释 用 滤波 器 级 联 的 图 像 合成 和 用 位 移 矢量 场 级 联 的 图 像 合成 。 哪 一 种 方法 的 
效率 更 高 ? 

为 什么 基于 知识 的 编码 器 比 OBASC 编码 器 能 更 有 效 地 编码 场景 ? 至 少 指出 两 种 
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原因 。 


10.17 为 什么 语义 编码 是 非常 有 效 的 ? 为 什么 我 们 目前 还 没有 诸 义 编码 器 ? 
10.18 ”动作 单元 和 脸 部 动画 参数 之 间 的 区 别 是 什么 ? 
10.19 解释 分 层 编 码 器 的 各 层 。 目 前 通常 使 用 哪些 层 ? 


10.11 
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在 前 面 黄 章 中 介绍 的 编码 方法 包括 基于 波形 和 基于 内 容 的 方法 ,是 的 是 对 于 固定 的 比特 
率 使 编 而 效率 最 优化 。 当 许多 用 户 试图 通过 不 同 的 通信 和 链 路 接 人 相同 的 视频 时 ,这 会 出 现 困 
难 。 例 如 ,可 以 在 通过 高 速 链 路 (例如 ADSL 调制 解 调 器 ) 连 接 到 服务 器 的 终端 上 实时 下 载 以 
1.5 Mbps EIH MPEG-1 视频 并 重 放 。 但 仅 有 56 kbps 调制 解 调 器 连接 的 用 户 将 不 能 实时 接 
收 是 够 的 比特 进行 重 放 。 可 分 级 性 是 指 通 过 仅 解码 一 部 分 压缩 的 比特 流 物理 地 恢复 有 意义 的 
图 像 或 视频 信息 的 能 力 。 在 前 曾 一 个 例子 中 ,如 果 视 频 流 是 可 分 级 的 ,那么 具有 高 带宽 连接 的 
用 广 可 以 下 载 整 个 比特 流 以 观看 全 质量 的 视频 ,而 具有 56 kbps 连接 的 用 户 将 只 下 载 流 的 -一 个 
子 集 , 观 看 一 个 低 质量 的 演播 。 

这 个 例子 只 说 明了 可 分 级 人 狂 的 一 方面 :带宽 可 分 级 性 。 可 分 级 流 也 可 以 提供 对 变化 的 信 
道 误 差 特征 的 适应 性 , 以 及 对 接收 终端 讨 算 能 力 的 适应 性 。 对 于 无 线 通信 , 可 分 级 性 允许 调整 
信和 源码 率 ,并 允许 应 用 非 平 衡 误 码 保护 以 适应 信道 谋 码 条 件 。 对 于 因特网 传输 ,可 分 级 性 使 可 
变 比特 率 传输 , 有 选择 地 丢弃 比特 ,以 及 相应 于 不 同 的 调制 解 调 器 速率 .变化 的 信道 带宽 和 不 
同 的 设备 能 力 调整 信 源 础 率 成 为 可 能 。 当 我 们 进 和 人 无线、 因特网 和 多 媒体 的 汇合 处 时 ,可 分 级 
性 对 于 从 任何 地 方 . 由 任何 入 ,在 任何 时 间 、 用 任何 设备 和 以 任何 形式 进行 丰 窜 的 多 媒体 访问 
就 变 得 您 发 重要 了 。 

可 分 级 编码 器 可 有 粗 间 隔 度 (在 两 层 或 三 层 内 一 这 些 也 称 为 分 层 编码 器 ) 或 细 问 陋 度 。 
在 细 向 隔 度 的 极端 情况 下 ,比特 流 可 以 在 任何 点 被 截断 。 保 留 的 比特 越 多 ,重建 图 像 的 质量 就 
越 好 。 我 们 称 这 样 的 比特 流 为 嵌 人 式 的 。 嵌 人 式 编码 器 能 进行 精确 的 比特 率 控 制 ,这 在 许多 
应 用 系统 中 都 是 所 希望 的 特性 。 例 如 ,网 络 滤波 器 (在 第 15 章 中 描述 ) 可 以 从 嵌 人 式 比特 流 中 
选择 传输 的 比特 数 以 匹配 可 用 带宽 。 

可 分 级 编码 -- 般 是 通过 提供 一 个 视频 的 多 种 版 本 实现 的 , 这 些 版 本 是 就 幅度 分 准 率 
《 称 为 质量 可 分 级 性 或 SNR 可 分 级 性 )、 空间 分 辩 率 (空间 可 分 级 性 )、 时 间 分 辩 率 (时 间 可 分 
级 性 )、 频率 分 状 率 (频率 可 分 级 性 ,更 经 常 称 为 数据 分 割 ) 或 这 些 选项 的 组 合 而 言 的 。 图 
11.1 直击- -组 从 可 分 级 比特 流 中 解码 的 图 像 ; 它 是 通过 联合 质量 可 分 级 性 与 空间 可 分 级 性 得 
BAT. 

可 分 级 内 容 叮 以 在 帧 级 或 物体 级 进行 访问 。 后 者 是 指 基于 物体 的 可 分 级 性 ,如 在 MPEG-4 
标准 中 所 定义 的 [51。 在 本 节 中 ,我 们 首先 介绍 实现 可 分 级 性 的 4 个 基本 方案 ,包括 质量 、 空 
B ,时间 和 频率 可 分 级 性 (11.1 节 )。 然 后 描述 如 何在 物体 级 实现 可 分 级 件 (11.2 AF). REX 
似 的 概念 可 以 应 用 于 丰 同 类 型 的 编码 器 ,但 我 们 将 把 讨论 集中 二 修正 的 基于 块 的 混合 编码 器 
《9.3.1 节 ) 以 实现 各 种 可 分 级 性 模式 。 最 后 ,我 们 描述 基于 小 波 的 编码 方法 , 由 小 波 变换 的 
性 质 , 它 自然 导致 细 间 隔 度 可 分 级 性 。 

注意 ,应 付 谈 化 的 信道 环 境 和 接收 机 能 力 的 另 一 种 方法 是 遂 过 问 时 联播 , 它 简单 地 把 辣 一 
视频 编码 儿 次 ,每 次 具有 不 同 的 质量 战 分 辩 率 设置 。 这 种 方法 尽管 简单 ,但 效率 很 低 , 因 为 一 
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个 较 高 质量 或 分 辩 率 的 比特 流 实际 上 重复 了 已 经 包含 在 较 低 质量 或 分 辩 率 比特 流 中 的 信息 ， 
以 及 一 些 附加 信息 。 另 一 方面 ,为 了 提供 可 分 级 功能 ,与 目前 的 不 可 分 级 编码 器 相 比较 ,编码 
器 必须 牺牲 一 定 的 编码 效率 。 可 分 级 编码 的 设计 目标 是 在 实现 可 分 级 性 要 求 的 同时 使 编码 效 


率 的 降低 达到 最 小 。 
ZA 
@ = 








图 11.1 从 联合 了 质量 和 空间 可 分 级 性 的 可 分 级 比特 流 中 解码 的 视线 帧 :Ca) 中 两 幅 
图 像 的 尺寸 为 [76x 144, 分 别 是 在 6.5 kbps 和 133.9 kbps 下 解码 得 到 的 ;(b) 
中 两 杠 图 像 的 尺寸 为 352 x 288 ,分 别 是 在 21.6 kbps 和 436.3 kbps 下 解码 得 到 的 
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11.1 可 分 级 性 的 基本 模式 


11.1.1 质量 可 分 级 性 


质量 可 分 级 性 定义 为 具有 可 变 的 彩色 模式 精度 的 视频 序列 的 表示 。 这 一 般 是 通过 以 越 来 
越 精细 的 量化 步 长 量化 彩色 值 (在 原始 或 变换 域 中 ) 实 现 的 。 因 为 不 同 的 量化 精度 导致 原始 的 
与 量化 的 视频 之 间 不 同 的 PSNR ,所 以 这 类 可 分 级 性 通常 称 为 SNR 可 分 级 性 。 
图 11.2 示 出 了 一 个 具有 NN 层 质 量 可 分 级 人 性 的 比特 流 。 解 码 第 一 层 (也 称 为 基本 层 ) 提供 
一 个 低 质 量 的 重建 图 像 版 本 。 进 一 步 解码 其 余 的 层 (也 称 为 增强 层 ) 导 致 重建 图 像 的 质量 提 
高 ,直到 最 高 质量 。 第 一 层 是 通过 对 原始 图 像 或 在 变换 (例如 DCT) 域 中 应 用 一 个 粗糙 的 量化 
器 得 到 的 。 第 二 层 包含 原始 图 像 与 由 第 一 层 重建 的 图 像 之 间 的 量化 差 值 ,使 用 的 量化 器 比 用 
于 产生 第 一 层 的 量化 器 更 精细 。 类 亿 地 ,后 面 的 每 一 层 包含 原始 图 像 与 由 前 面 一 层 重建 的 图 
像 之 间 的 量化 差 值 ,量化 中 使 用 愈加 精细 的 量化 器 。 


E NARA SNR 层 中 的 解码 帧 


SN(O) SN) SN(2) 










































































pa > ie a 


比特 流 














图 11.2 具有 N 层 质量 可 分 级 性 的 比特 流 


图 11.3(a) 画 出 了 一 个 具有 两 级 质量 可 分 级 性 的 编码 器 。 对 于 基本 级 ,编码 器 以 与 典型 的 
基于 块 的 混合 编码 器 一 样 的 方式 工作 。 对 于 增强 级 , 按 如 下 方式 工作 ， 


1. 在 基本 级 对 原 视频 帧 (或 运动 补偿 误差 帧 ) 进 行 DCT 变换 并 量化 ; 
2. 用 反 量化 重建 基本 级 DCT 系数 ; 

3. 从 原 DCT 系数 中 减 去 基本 级 的 DCT 系数 ; 

4. 用 小 于 基本 级 的 量化 参数 量化 该 残 差 ; 

5. 用 VLC 编码 量化 比特 。 


由 于 增强 级 使 用 了 较 小 的 量化 参数 , 它 能 够 达到 比 基 本 级 更 好 的 质量 。 
图 11,3(b) 画 出 了 解码 器 的 工作 过 程 。 对 于 基本 级 ,解码 器 与 不 可 分 级 视频 解码 器 的 工 
作 完全 一 样 。 对 于 增强 级 , 必须 接收 到 两 级 ,用 可 变 长 解码 (YLD) 进 行 解码 ,并 进行 反 量化 。 
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然后 把 基本 级 的 DCT 系数 值 加 到 增强 级 的 精细 的 DCT 系数 上 。 这 一 步 之 后 ,对 求 和 后 的 DET 
系数 进行 DOT WER, 产生 增强 级 的 解码 视频 。 




































































| 基本 级 
ROS 一 上 | pcT | + Q +| VLC > 压缩 的 
| 比特 流 

- 0 
增强 级 
+ Q >| VLC > 压缩 的 
比特 流 

w 
基本 级 基本 级 
压缩 的 — VLD > 解码 的 
比特 流 视频 
增强 级 。 -一 增强 级 
压缩 的 — VLD [了 > 解码 的 
比特 流 视频 


图 11.3 “一 个 两 级 的 质量 可 分 级 编 解码 器 ; (a) 编码 器 ;(b) 解 码 占 


11.1.2 室 间 可 分 级 性 


空间 可 分 级 性 定义 为 同 -个 视频 在 不 同 空间 分 辩 率 或 尺寸 下 的 表示 ( 周 11.4(a) 和 (b))。 
图 11.5 说 明了 一 个 具有 M 层 空 间 可 分 级 性 的 比特 流 。 通 过 解码 第 一 层 ,用户 可 以 旺 未 一 个 
低 分 辨 从 解码 图 像 的 预览 版 本 。 解 码 第 二 层 产 生 -… 个 较 大 的 重建 图 像 。 进 一 步 地 ,通过 乏 级 
解码 其 余 的 层 ,观看 者 可 以 增加 图 像 的 空间 分 辨 率 ,直到 原始 图 像 的 全 分 辩 率 . 

为 了 产生 这 样 一 个 分 层 比特 流 ,首先 要 获得 原始 图 像 的 多 分 辩 率 分 解 。 直 接 编码 最 低 分 
PERRERA ER -- 层 ( 即 基本 层 ) 。 为 了 产生 第 “ 层 , 先 电 由 第 一 层 解 码 的 图 像 内 插 到 第 
二 个 最 低 的 分 状 率 , 并 是 在 这 个 分 辩 率 下 对 原始 图 像 与 内 插图 像 之 间 的 差 进行 编码 。 以 相同 
方式 产生 每 一 个 后 续 分 辩 素 的 比特 流 :首先 在 该 分 辩 素 下 基于 前 而 的 层 形成 一 个 估计 图 像 . 然 
后 在 该 分 辨 举 下 编码 估计 图 像 与 原始 图 像 之 间 的 差 。 
世 .6(a) 示 出 了 一 个 两 层 的 空间 可 分 级 编码 器 的 方 框图 。 对 于 基本 层 , 原 视频 首先 进行 
空间 下 采样 ,然后 进行 DCT 变换 .量化 和 VLC 编码 。 对 于 增强 层 ,进行 以 下 的 工作 : 

1. 在 基本 层 , 对 原 视频 进行 空间 下 采样 .DCT 变换 和 重 

2. 通过 反 明 化 和 逆 DCT REEERE: 





































































































由， 例如 ,通过 将 体 2x2 个 像素 用 它们 的 平均 值 符 换 ,可 以 实现 4:1 比率 的 空 阿 下 采样 。 用 更 复杂 的 顶 滤 波 器 二 以 减 
少 下 采样 图 像 的 重 每 效应 ,但 以 增加 复杂 度 作为 代价 。 
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3. 对 基本 层 图 像 进行 空间 上 采样 0; 
4. 从 原始 图 休 中 减 去 上 采样 的 基本 层 图 像 ; 
5. 对 残 差 进行 DCT 变换 ,并 用 小 于 基本 层 的 最 化 参数 进行 量化 ; 


6. 用 VIC 编码 量化 的 比特 。 
fa) 


000 
































(c) 


图 11.4 WARR ATS EAR SPA: (a) RRA (b) WE 
缩小 到 原始 尺寸 的 114;(c)? 时 间 上 分 级 的 帧 


在 好 个 不 同 的 空间 层 中 解码 的 由 


SPM ~ 1) 











oe Mirae eon oes ee Sea ee 
图 11.5 具有 MERET AAEN ERN 


四 ”例如 ,一 个 实现 1:4 比率 的 空间 上 采样 的 简单 方法 是 每 个 像素 复制 四 次 。 
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HL ——>(P }—>] DCT = Q T vec 上 一 压缩 的 
比特 流 


IDCT je 19 
增强 居 
> (+ > DET >= Q >| VLC > ee 

























































































空间 /时 间 ft 空间 /时 间 
向 下 采样 向 上 采样 
ta) 
基本 层 r 一 MALL 
Ram — vD m Q + DCT > 解码 的 
比特 流 一 视频 
t 
增强 层 m r 增强 层 
压缩 的 >| VLD | Q | IDCT D ES 
KER 视频 
tb) 
图 11.6 -个 两 层 的 空间 /时 间 可 分 级 编 解码 器 :(a) 编 码 器 :(b) 解 码 器 
由 于 增强 层 使 用 了 较 小 的 量化 参数 , 它 可 以 达到 比 基 本 层 更 高 的 质量 。 
图 11.6(b) 画 出 了 :个 具有 两 层 可 分 级 性 的 空间 可 分 级 解 公 器 。 对 于 基本 层 , 解 但 器 的 


工作 与 不 可 分 级 的 视频 解码 器 完全 一 样 、 对 于 增强 层 ,必须 接收 到 两 层 ,用 VUD 解码 ,进行 反 
量化 和 逆 DCT SEHR. PRG RRE IR. TE LOR EASE A J AR GR a HAA 
合 形成 增强 层 解码 视频 。 


11.1.3 时 间 可 分 级 性 


时 间 呈 分 级 性 定义 为 同一 个 视频 在 不 同 的 时 间 分 辩 率 或 帧 率 下 的 表示 ( 见 图 11.4(a) 和 
《ec))。 蛙 间 可 分 级 性 可 以 对 不 同 内 容 的 层 使 用 全 同 的 帧 率 。 一 - 般 , 以 这 种 方法 对 时 间 可 分 级 
视频 进行 有 效 的 编码 : 利用 较 低 层 的 时 间 上 采样 图 像 作为 较 高 层 的 预测 。 时 闻 避 分 级 编 解 码 
器 的 方 框图 与 空间 可 分 级 编 解码 句 的 相同 ( 见 图 11.6)。 惟 -的 差别 足 空间 可 分 级 编 解码 器 
用 空间 下 采样 和 空间 上 采样 ,而 时 间 可 分 级 编 解码 器 用 时 间 下 采样 和 时 间 上 采样 。 进 行 时 间 
下 采样 的 最 简单 广 法 是 跳 帧 例如 , 比率 为 2:1 的 时 间 下 采样 可 通过 每 两 帧 丢 讲 - 帧 来 实现 。 
时 间 上 采样 可 用 帧 复制 的 方法 来 实现 。 例 如 ,比率 为 1:2 的 时 间 上 采样 可 通过 每 帧 复制 一 个 
副本 并 在 下 一 步 传 输 这 两 帧 来 实现 。 在 这 种 情况 下 ,基本 层 包括 所 有 的 偶数 桢 而 增强 层 包 括 
所 有 的 奇数 帧 。 对 于 运动 补偿 ,基本 民 帧 将 仪 由 前 面 的 基本 必 的 帧 来 预测 ,而 增 强 层 的 帧 由 基 
本 居 的 帧 和 增强 层 的 帧 都 可 以 项 测 ， 


11.1.4 频率 可 分 级 性 
用 多 个 屋 表 示 视 频 帧 的 另 一 种 方法 是 通过 在 每 一 层 包 含 不 同 的 频率 分 量 ,基本 层 包 含 低 
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频 分 量 而 其 他 层 包含 逐渐 增加 的 较 高 频率 分 量 。 在 这 种 方法 中 ,基本 层 将 提供 一 个 模糊 的 图 
像 , 加 上 各 增强 层 将 产生 逐渐 清晰 的 图 像 。 可 通过 整 由 变换 ,例如 子 带 分 解 或 小 波 变换 ,或 通 
过 基于 块 的 变换 (例如 块 DCT) 来 实现 这 种 分 解 。 在 基于 块 的 混合 编码 器 中 实现 这 个 思想 的 一 
种 方法 是 ,在 基本 层 中 包括 模式 信息 .运动 信息 和 每 个 宏 块 的 前 几 个 DCT 系数 ,而 在 增强 层 中 
包括 其 余 的 DCT 系数 。 在 MPEG-2 标准 中 ,这 称 为 数据 分 割 。 我 们 将 在 11.3 节 中 讨论 基于 小 
波 的 可 分 级 编码 器 。 


11.1.5 基本 方案 的 组 合 


质量 ,空间 时间 和 频率 可 分 级 性 是 基本 的 可 分 级 机 制 。 可 把 它们 组 台 起 来 以 达到 较 细 的 
间隔 度 。 图 11.7 示 出 了 一 个 空间 和 质量 可 分 级 性 组 合 的 情况 。 在 这 个 例子 中 ,比特 流 由 OM 
个 空间 层 组 成 ,每 个 空间 层 包括 六 级 质量 可 分 级 性 。 在 这 种 情况 下 ,渐进 地 传输 并 解码 比特 
流 可 以 提高 重建 图 像 的 空间 分 辩 率 和 质量 。 次 序 是 在 一 个 给 定 的 空间 分 辨 率 下 提高 图 像 质 
量 ,直到 达到 该 分 状 率 下 的 最 佳 质 量 ,然后 把 空间 分 辨 率 提高 到 较 高 的 级 并 再 次 提高 质量 。 


在 混合 空间 /SNR LP ET A bli 


SP(2) SP(M — 1) 

































































| | 
= b LT Fes 十 = = I I = j 
比特 流 
图 11,7 Nx M 层 组 合 的 空间 /时 间 可 分 级 性 

11.1.6 细 间 隔 度 可 分 级 性 


我 们 已 描述 的 可 分 级 性 方法 生成 由 若干 层 组 成 的 比特 流 ,基本 层 后 面 是 一 个 或 几 个 增强 
层 。 这 种 类 型 的 编码 器 仅 提供 粗 问 隔 度 ,这 只 在 码 率 以 大 的 离散 步 长 增加 时 才能 获得 质量 的 
改善 。 如 果 在 一 个 特殊 的 层 中 仅 接收 到 部 分 比特 , 则 再 生 的 视频 质量 很 大 程度 上 取决 于 在 前 
面 层 中 接收 到 的 比特 , 而 不 会 受益 于 从 该 层 接收 到 的 比特 。 细 间隔 度 可 分 级 性 (FCS, Fine- 
granularity scalability) 是 指 一 种 编码 方法 ,通过 这 种 方法 , 码 率 和 质量 以 小 得 多 的 步 长 增加 。 在 
极限 情况 下 ,比特 流 可 以 通过 每 一 个 附加 的 比特 提供 连续 的 视频 质量 的 改善 ,这 种 编码 方法 称 
为 嵌 人 式 编码 。 很 明显,FGS 和 嵌入 式 编码 比 其 他 可 分 级 方法 能 更 有 效 地 适应 实际 网 络 中 的 
带宽 变化 。 
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实际 上 ,比特 流 完全 嵌 人 或 具有 细 间 阿 度 的 要 求 经 常 是 宽松 的 。 可 以 首先 生成 基本 层 , 以 
提供 一 个 低 的 但 有 保证 的 质量 水 平 ,然后 可 生成 增强 层 以 提供 细 间 隔 度 。 例 如 ,在 MPEG-4 的 
FCS 模式 [14,11] 中 采用 了 这 种 方法 。 在 这 种 情况 下 ,采用 传统 的 基于 快 的 混合 编码 方法 ,以 


的 )， 


> 


的 。 


最 高 





fF? 


这 种 方法 仅 提供 在 固定 的 空间 时 间 分 辨 率 下 的 质量 可 分 级 性 
基本 层 可 包括 用 较 高 的 QP 编码 的 帧 的 一 个 
进行 双向 预测 。 然 后 ,除了 基本 层 幅 的 细节 系数 和 
用 比特 平面 编码 方法 进行 编码 [22]。 这 个 方案 示 ] 


相对 大 的 QP, 生 成 … 个 给 定 帧 率 下 的 基本 层 流 
到 原始 DCT 系数 0 与 基本 层 中 的 量化 系数 之 间 
这 是 通过 用 非常 小 的 QP 来 量化 细节 系数 多 ,再 通过 


具体 地 说 ,每 个 块 中 量化 的 细节 系数 的 绝对 
特 平面 于 始 , 用 游程 编码 相继 地 编码 每 个 
编码 对 游程 编码 。-- 般 , 不 同 的 比特 平面 采用 不 
不 同 的 。 当 只 有 增强 
视频 的 质量 将 处 于 





值 用 
Lae 
同 的 码 书 , 因为 在 不 同 的 平面 上 游程 分 布 总 


然后 ,对 于 每 个 编码 帧 ( 帧 内 或 帧 问 编码 
的 差 ( 称 为 细节 系数 ) 编 码 成 细 问 隔 度 流 。 
连续 的 比特 平面 编码 表示 量化 索引 实现 





二 进 制 表示 来 确定 。 从 包含 非 零 比 特 的 
Fi, UT. ATA Ra RH AR 


可 























层 流 的 部 分 集 被 解码 时 , 取决 了 











F 仅 中 基本 层 获得 的 质量 到 通过 细节 
流 的 阅 隔 度 是 在 比特 平面 级 : 每 一 个 增加 的 完整 的 


ERER. X 
-TE DA 
PE 11.8, 








PREDER PERSIEN, 重建 
DCT 系数 所 用 的 QP 获得 的 质量 之 间 。 
t 特 平面 将 引起 DCT 系数 精度 改善 2 




















,为 了 增加 时 间 可 分 级 性 ， 
于 增强 层 , 其 余 的 帧 由 基本 层 的 帧 
误差 图 像 中 的 DCT 系数 被 量化 ,并 






























































GE 被 传输 的 部 分 增强 层 
O Weise 














图 .8 支持 联合 质量 时 间 可 分 级 性 的 增强 层 流 的 部 分 传输 图 示 





码 的 。 
OR AA TE AEF RAL ALN ,就 不 进行 量化 


这 个 FRCS 方案 的 局 限 性 是 必须 完整 地 传送 基本 层 , 并 是 是 没有 差错 的 。 在 实际 网 络 中 这 


DMPA, WAR RAT MRO RARE Sh ARR FT RTEA AJA PAYS HI E AR 


FER PUREE Be oa A ed E a Eh A Ae A E o AE ON TY T OR 
RTT AEA) SRR AY AE RE HEEF TIRI FGS 流 。 








第 11 章 ， 可 分 级 视频 编码 277 





有 可 能 做 到 也 可 能 做 不 到 。 另 一 个 问题 是 , 当 基 本 层 比 特 率 保持 很 低 时 (以 便 增加 比特 流 的 可 
分 级 范围 ) FCS 方法 的 编码 效率 与 不 可 分 级 编码 器 比较 将 被 显著 地 降低 。 这 是 因为 重建 的 基 
本 层 的 帧 是 作为 运动 补偿 预测 的 参考 帧 使 用 的 。 尽 管 这 种 选择 消除 了 增强 层 中 的 时 间 误 码 扩 
贡 问 题 , 但 在 基本 层 的 帧 中 的 高 量化 误差 减少 了 预测 增益 。 提 高 FGS 方法 编码 效率 的 一 种 方 
法 是 则 期 地 使 用 中 亲 的 增强 层 (由 某 些 但 不 是 所 有 的 比特 平面 重建 的 ) 作 为 运动 补偿 预测 的 参 
考 [24] 。 

用 基于 块 的 变换 完全 实现 嵌 人 式 编码 是 困难 的 。 我 们 将 在 11.3 节 中 说 明 如 何 用 小 波 变 
换 达 到 这 个 且 的 。 


11.2 基于 物体 的 可 分 级 性 


在 前 一 节 中 介绍 的 各 种 可 分 级 编码 方法 在 整个 视频 帧 上 进行 相同 的 工作 。 在 基于 物体 的 
时 间 可 分 级 性 (OTS) 中 ,所 选择 物体 的 帧 率 被 提高 ,以 便 它 具 有 比 其 余 的 区 域 更 平滑 的 运动 。 
( 换 包 话说 ,所 选择 物体 的 帧 率 比 其 余 区 域 的 帧 率 高 。) 下 面 我 们 将 主要 介绍 基于 MPEG-4 实现 
的 OTS。 

在 OTS 中 有 两 类 增强 结构 。 图 11.9 示 出 了 一 个 类 型 1 的 例子 ,其 中 VOLO( 视 频 物 体 层 0) 
是 其 有 一 个 物体 和 一 个 背景 的 整个 帧 , 而 VOLI 表示 VOLO 中 的 特殊 物体 。 以 低 帧 率 编码 
VOLO, TEAR VOLO 的 帧 率 编码 VOL1。 在 这 个 例子 中 , 帧 2 和 4 是 由 VOLO 的 帧 0 预测 编码 
的 ,然后 把 增强 层 的 物体 重合 到 这 个 组 合 的 帧 。 图 11.10 示 出 了 类 型 1 的 男 一 个 例子 , 它 采用 
双向 预测 形成 增强 层 中 的 双向 VOP(B-VOP, 双向 视频 物体 平面 )。 在 这 种 情况 下 ,VOLI 中 的 
巾 2 和 和 4 是 由 VOLO 中 的 帧 0 和 6 护 测 的 。 在 这 两 种 情况 下 , 黄 个 附加 的 形状 数据 {前 向 形状 
和 后 向 形状 ) 被 编码 以 执行 背景 合成 。 
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图 11.9 类 型 | 的 OTS 增强 结构 ,具有 预测 的 视 
频 物 体 平面 (P-YOP)( 得 到 MPEG-4 许 可 ) 


图 11.11 示 出 了 一 个 类 型 2 OTS 的 例子 , 其 中 voo (视频 物体 0) 是 仪 包含 背景 且 没 有 可 
分 级 性 层 的 整个 帧 的 序列 。VO1 是 一 个 特殊 物体 的 具有 两 个 可 分 级 性 层 VOLO 和 VOLI 的 序 
Jle VOLL 表示 与 VOLD 相同 的 物体 ,但 被 编码 以 达到 高 于 VOLO 的 帧 率 。 在 这 个 例子 中 ， 
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VOLO 被 认为 十 OTS 的 基本 层 , VOLI 被 认为 是 OTS 的 增强 层 , 注意 , V00 可 能 不 具有 与 其 他 
的 VO 相同 的 帧 率 。 























YOLI 增强 层 
VOLO 
BAR 
图 11.10 类 型 1 的 OTS 增强 结构 .其 有 R-YOP 
0 3 6 9 2 15 CTA 
+ t + + t + 
VOUS 增强 层 
VOL 
Le. 
> 
VOT 1 基本 层 
VOLT 
i 
> 
YOO 


图 11.J1 类 型 2 的 OTS SRA 


11.3 基于 小 波 变换 的 编码 





节 近 出 现 的 离散 小 波 变换 (DWT) 由 于 其 在 表示 非 平稳 图 像 信号 方 而 的 灵活 性 和 适应 人 类 
视觉 特征 的 能 力 ,已 经 成 为 网 像 和 视频 正 缩 方 面 的 有 力 工具 | 16,15]。 小 波 表示 以 时 间 和 频率 
的 局 部 化 提供 了 信号 的 一 个 多 分 辩 率 /多 频率 表示 。 在 图 像 和 视频 编码 应 用 中 是 非常 期 望 这 
种 性 质 的 。 首 先 ,真实 世界 的 图 像 和 视频 实际 上 是 非 平稳 的 。 小 波 安 换 把 非 平稳 信号 分 解 成 
































一 系列 多 级 子音 





荫 , 每 个 子 带 





和 参数 适应 于 每 个 子 带 的 统计 性 质 ， 


p 的 分 量变 得 相对 比较 平稳 ， 
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此 易于 编码 。 同 时 ,可 使 编码 方案 
此 编码 每 个 平稳 的 分 量 比 编码 整个 非 平稳 信号 的 效率 























更 高 。 另 外 ,如 心理 物理 学 和 生理 学 方面 的 研究 结果 所 指出 的 ,小 波 表示 与 早期 人 类 视觉 所 体 


验 的 空间 沿 谐 的 频率 调制 性 质 相 
身 易于 适合 可 分 级 的 比特 流 。 


与 基于 DCT 的 方法 一 样 , BFA 


(DEAE: (3) MR. 小 波 变换 
频率 段 上 的 分 级 空间 表示 。 一 般 
比特 分 配 和 数据 压缩 。 其 化 允许 


系数 编码 成 一 组 压缩 的 二 进 制 比特 流 。 基 了 


匹配 。 最 后 ,小 波 变换 所 提供 的 多 分 辩 率 /多 频率 分 解 使 它 本 





\ 波 变换 的 图 像 编 码 包 括 三 个 步 又: (1) 小 波 变换 ; 
巴 图 像 信号 转换 成 一 系列 系数 ,这些 系 数 对 应 于 多 分 辨 率 和 
色 小 波 系 数组 织 为 分 层 的 数据 结构 ,以 便 可 以 更 有 效 地 进行 





以 一 定 的 失真 为 代价 来 降低 翁 府 。 最 后 , 烦 编 码 把 量化 后 的 
小波 变 换 的 编码 有 许多 变种 . 小波 变换 一 般 臣 整 








体 进 行 的 , 但 也 已 经 天 





f 发 了 块 状 的 小 波 变换 以 提高 实施 效率 [9]。 最 近 也 } 


发 了 矢量 小 波 变 


换 和 任意 形状 的 小 波 变换 [12, 10]。 量 化 可 以 有 好 几 种 类 型 : 标量、 矢量 或 格 形 编码 《TCQ)。 


录 编 码 可 以 足 哈 大 曼 或 算术 编码 ,使 用 固定 的 或 者 自 适应 的 码 ， 恨 据 比 特 了 





『 面 或 整个 样 点 实 


现 。 当 把 小 波 应 用 于 视频 编码 时 ， 和 需要 减少 时 间 宛 余 的 机 制 . 已经 提出 了 在 空间 和 小 波 域 中 


的 运动 神 
对 于 图 像 编码 ,已经 证 明 在 压缩 效率 和 增强 特性 (例如 





偿 、 三 维 小 波 变换 和 运动 补偿 的 三 维 小 波 视频 编码 算法 [26, 21]. 


可 分 级 性 ) 访 面 ,小 波 变 换 比 基于 


DCT 的 编码 技术 优越 得 多 。 因 此 MPEG-4 和 JPEG2000 都 选择 基于 小 波 的 方案 作为 编码 静止 纹 


理 和 移 像 的 基础 。 然 而 , 仍 有 待 于 证 明基 于 小 波 的 视频 编码 在 压缩 方面 显著 地 优 了 


的 方案 。 在 参考 文献 [ 2] 





PF 包括 了 图 像 和 视频 DCT 与 小 波 


F 基 于 DCT 
RENE, KER HRH 





编码 标准 (H.261,H.263,MPEG-1 和 MPEG-2) 已 采用 在 第 9 章 中 介绍 的 基于 块 的 混合 视频 编码 


框架 [7,8,3,4]。MPRG-4[5] 也 采用 基于 





F DCT 的 方案 编码 自 
FF 静止 图 像 和 图 形 。 目 前 在 基于 小 波 的 视频 编码 研究 方面 3 
缩 率 和 可 分 级 性 。 

这 一 节 我 们 从 描述 最 流行 的 基于 小 波 的 图 
足 一 个 运动 补偿 视频 编 解 码 的 例子 ,以 说 明 小 波 在 视频 编码 
数学 公式 已 经 广泛 地 包含 在 有 关 著 作 中 〈 见 参考 文献 [23,1 
法 的 压缩 方面 。 


静止 图 像 的 小 波 编码 
EZW 方法 ”基于 等 俊 的 编码 概念 最 早 是 由 Shapiro HY 

















11.3.1 








然 图 像 ,尽管 基于 小 波 的 编码 被 
E 常 活跃 ,目的 在 于 更 大 地 提 痪 压 











像 编 码 方案 ( 称 为 基于 零 树 的 方案 ) 开 始 。 然 后 





中 的 应 用 。 由 于/ 


DAH 


\ 波 变换 的 基本 
疼 集 中 在 基于 小 波 编码 方 





上 的, 称 为 工人 式 零 树 小 波 (EZW-。 





embedded zero-tree wavelet) 43 [19]. BRT ARREA EAE» 


, 零 树 小 波 编 码 的 优点 包括 简单 


性 .嵌入 式 比特 流 结构 ,可 分 级 性 和 精确 的 比特 率 控制 。 零 树 小 波 编码 基于 三 个 关键 的 思想 ， 


H 
(3) 


小 波 变换 去 相关 ; (2) 利 
自 适 应 算术 编码 进行 通 

离散 小 波 变换 把 输 人 图 
是 床 始 图 像 的 低 通 近似 , 面 其 他 的 子 开 
变换 系统 ) 中 ,除了 最 低频 子 带 外 ,在 给 定 级 上 的 每 个 系数 都 
方位 的 一 组 系数 相关 。 粗 糙 级 上 的 系数 称 为 父 , 而 所 有 在 相 
上 的 相似 方位 的 系数 称 为 子 。 


用 
H 

















的 无 损 数据 压缩 。 























像 分 解 成 一 系列 不 同 分 辩 率 的 子 带 。 最 粗糙 的 子 带 称 为 DC 并 
萌 是 较 精细 尺度 的 细节 。 


小 波 变 换 的 内 在 自 相似 性 在 各 级 之 问 预 测 重要 信息 的 位 置 ; 





F, 
在 一 个 分 层 子 带 系 统 (例如 小 波 
可 能 与 下 一 个 较 精细 级 上 的 相似 
同室 间 位 置 和 在 下 一 个 较 精细 级 
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作为 例子 ,图 11.12 不 出 了 -个 由 二 级 小 波 分 解 所 得 的 小 波 树 。 对 于 最 低频 子 带 , 即 这 个 
例 对 中 左上 角 的 方块 ,父子 关系 的 定义 是 每 一 个 父 弛 点 具有 二 个 了 节点 ,每 个 子 带 一 个 ,它们 
位 于 同样 的 级 和 空间 位 置 ,但 在 不 同 的 方位 上 。 对 于 其 他 的 子 肯 ,每 一 个 父 季 点 共有 四 个 了 闻 
点 ,它们 在 相同 方位 的 下 一 个 较 精细 的 级 上 
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同 11.12 小 波 系数 的 父子 关系 


DC 子 带 的 小 波 系数 是 与 其 他 子 带 独立 编 侣 的 。 如 图 11.13 所 示 ,当前 系数 oh EMSS 
的 个 其 他 的 量化 系数 ( 即 4,B 和 CC) 自 适 应 地 预测 ,并 从 当前 系数 减 去 预测 值 。 预 测 值 可 按 
下 式 得 到 ， 





t-f IA- BI<IR-CI 
la ”其 他 
如 果 任何 -个 相 邻 的 系数 (A,B R ORERE, TAN SERERA YE. 


(11.3.1) 




















图 tl.13 DC 系数 的 自 通 应 预测 编码 


在 比特 流 中 ,首先 编码 量化 步 长 ;然后 ,差分 量化 索引 的 最 小 值 幅 度 ( 称 为 带 偏 移 量 ) 和 最 
大 值 幅度 ( 称 为 带 最 大 值 ) 被 编码 成 比特 流 僚 数 带 侦 移 量 是 负 整数 或 零 ,而 参数 带 最 大 值 是 
正 整 数 。 所 以 只 有 这 些 参 数 的 幅度 被 编码 成 比特 流 。 关 分 量化 索引 用 算术 编码 视 以 光栅 扫 描 
顺序 被 编码 ,从 左上 角 的 索引 开始 ,到 右 下 角 结束 。 该 模型 由 每 个 编码 差分 其 化 索引 的 比特 进 
行 更 新 ,以 适应 DC 带 的 统计 特性 。 

FZW 逐 子 带 地 扫描 小 波 系 数 。 父 节点 在 其 任何 子 节点 之 前 被 条 描 。 每 个 系数 都 与 当前 
RUE ?进行 比较 ,如 时 系数 的 幅度 大 十 T, CREEN. 然后 用 两 个 符号 (负重 要 的 或 正 











LUE 可 分 级 视频 编码 281 





重要 的 ) 对 这 样 的 系数 进行 编码 。 零 树 根 符号 用 于 表示 小 于 THERE K T WRF T i 
系数 。 拆 零 符号 表示 小 于 了 但 至 少 有 一 个 子 节点 不 小 于 的 系数 。 对 于 I 系数 , EZW 进 
一 步 几 一 个 连续 逼近 的 量化 方案 编码 系数 的 值 。 编 码 是 通过 比特 平面 进行 的 ,导致 -- 个 嵌入 
式 比特 流 。 

ZTE 和 MZTE 方法 ”近年 来 EZW 已 经 被 显著 地 改进 。 例 如 SPIHT[18] .预测 EZW[ 13]、 
零 树 筷 (ZIE) 编 码 [17] 和 更 一 般 情 况 的 多 级 ZTE(MZTE)[20]。 使 用 零 树 的 形状 自 适应 小 波 纺 
倘 也 已 经 被 提出 ,用 于 编码 具有 任意 形状 的 物体 [10]。 

STS EET FZW 编码 的 ,但 与 EZW 编码 有 很 大 的 不 同 。 与 EZW 类 似 ,ZTE 编码 利 
用 图 像 小 波 变 换 内 在 的 自 相似 性 来 预测 小 波 各 级 之 间 信 息 的 位 置 。 尽 管 ZTE 不 生成 完全 项 
人 式 的 比特 流 (如 EZW) ,但 它 获 利于 灵活 性 以 及 其 他 胜 于 EZW 编码 的 优点 ,包括 在 编码 效率 、 
简单 性 和 空间 可 分 级 性 方面 实质 性 的 改善 。ZTIE 编码 是 通过 把 零 树 符号 分 配给 系数 ,然后 对 
系数 值 连同 它 的 符号 以 两 种 不 同 的 扫描 顺序 之 一 进行 编码 。 在 ZTE PP E 
罕 树 根 (ZTR) ,估价 的 零 树 根 (VZTR) MEO (VAL) AE (IZ), RG EES AHL BS 
个 具有 给 定 的 符号 字母 表 的 自 适应 算术 编码 器 进行 无 损 编码 。 算 术 编 码 自 适 应 地 跟踪 零 树 符 
号 的 统计 特性 ,并 用 三 种 模式 来 编码 值 ;(1) 类 型 ,为 了 编码 零 树 符号 ;(2) 帆 度 , 为 了 编码 比特 
平面 方式 的 值 ;(3) 符 导 , 为 了 编码 值 的 符号 。 对 于 每 个 系数 ,首先 编 公 它 的 零 树 符 恕 ;如 果 有 
必要 的 话 , 肯 编码 它 的 值 。 值 的 编码 分 为 两 步 。 首 先 ,用 适当 的 概 池 模式 以 比特 平面 方式 编码 
它 的 绝对 值 ;然后 ,用 一 种 二 进 制 概率 模型 编码 符号 。 

MZTE 编码 技术 基于 ZTE 编码 ,但 使 用 一 种 新 的 框架 改善 ZTE, 并 把 它 扩 展 为 一 种 完全 可 
分 级 王 仍 然 非 常 有 效 的 编码 技术 。 在 第 一 个 可 分 级 层 , 用 与 ZTE 编码 相同 的 方式 生成 零 树 符 
号 ,并 把 零 树 符号 与 该 可 分 级 层 的 非 零 小 波 系数 一 起 进行 编码 。 对 于 下 - .个 可 分 级 层 , 零 树 映 
射 与 相应 值 的 细节 一 起 进行 更 新 。 在 每 个 可 分 级 层 中 ,只 有 当 一 个 系数 在 前 一 个 可 分 级 层 中 
作为 ZTR 或 也 编码 时 , 才 为 它 编 码 一 个 新 的 零 树 符号 。 如 果 这 个 系数 在 前 一 - 层 中 是 作为 YZ- 
TR È VAL 编码 的 ,那么 在 当前 层 仅 编码 它 的 细节 值 。 一 个 对 于 残 差 的 附加 概率 模型 用 于 纺 
码 在 任何 前 血 的 可 分 级 层 中 用 VAL 或 VZTR 符号 编码 的 系数 的 骨节。 进一步 地 ,为 了 利用 可 
分 缴 层 之 间 高 度 相 关 的 夫 树 符号 ,基于 MZTE 的 前 一 个 可 分 级 性 层 中 的 系数 的 零 树 符号 ,使 用 
上 下 文 模型 以 更 好 地 估计 零 树 符号 的 分 布 。 
图 11.14(a) 和 (b) 中 的 图 像 是 分 别 用 JPEG 和 MZTE 压缩 方案 ,在 相同 的 45:1 EEK 
获得 的 。 结 果 表 明 MZTE 方案 产生 比 JPEG 好 得 多 的 图 像 质量 ,很 好 地 保留 了 精细 的 纹理 区 
域 ,而 且 没 有 块 效 应 。 在 参考 文献 [25] 中 的 研究 表明 ,基于 小 波 的 编码 器 在 比特 率 相 同 的 情况 
下 ,在 PSNR 方面 一 般 优 于 基于 DCT 的 编码 器 大 约 1 dB。 

使 用 MZTE 方 法 ,我 们 可 以 很 容易 获得 空间 和 质 三 可 分 级 性 。 通 过 从 MZTR 讨 缩 图 像 的 
比特 流 中 解码 越 来 越 多 的 比特 ,可 获得 越 来 越 大 和 越 来 越 消 晰 的 原始 图 像 的 再 现 。 

ERASE DWT ”基于 小 波 的 编码 可 扩展 到 任意 形状 的 物 休 fT101。 通 过 形状 自 适应 
DWT (SA-DWT)， 物 体 的 形状 掩 膜 被 分 解 成 子 带 金字 塔 ， 从 而 我 们 知道 哪些 小 波 树 的 节点 只 
有 有 效 的 小 波 系 数 而 哪些 具有 “不 必 在 意 ”的 值 。 我 们 必须 注意 只 有 这 些 不 必 在意 的 值 (对 
应 边界 外 的 像素 或 外 节点 ) 的 多 分 辨 率 任意 形状 物体 的 编码 方式 。 各 种 基于 小 波 的 编码 方 
法 ,包括 EZW 和 ZTE 可 以 扩展 到 SA-DWT。 在 本 小 节 中 , 我 们 讨论 如 何 把 ZTE 方法 扩展 到 形 
状 自 适应 的 情况 。 
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图 11,14 (a) 用 JPEG 基线 方法 编码 的 图 像 (Y,U 和 了 分 量 的 PSNR 分 别 是 28. 36,34.74, 
34.98 dB);(b) 用 MZTE 方 法 编码 的 图 像 (Y,U 和 Y 分 量 的 PSNR 分 别 是 30.98， 
41.68,40.14 dB)。(a) 和 ({b) 的 压缩 比 都 是 45:1。 只 示 出 了 Y 分 量 部 分 


如 在 参考 文献 [10j 中 所 讨论 的 ,SA-ZTE 把 图 像 域 的 任意 形状 的 物体 分 解 为 一 个 分 层 的 结 
构 , 具 有 一 系列 不 同 分 辩 率 的 子 带 。 每 个 子 带 具有 一 个 与 它 相关 的 对 应 的 形状 德 腊 , 用 以 确定 
该 子 带 中 有 效 系数 的 位 置 。 在 树 中 有 三 种 类 型 的 节点 : 零 , 非 零 和 外 节点 (具有 不 必 在 意 的 
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E). 任务 是 要 把 零 树 编 码 方法 扩展 到 具有 外 节点 的 情况 。 简 单 的 方法 是 把 那些 不 必 在 意 的 
值 设置 为 零 , 然 后 应 用 零 树 编码 方法 。 然 而 ,这 需要 比特 以 “不 必 在 意 的 树 " 的 形式 (其 中 父 节 
点 和 它 的 所 有 子 节点 都 具有 不 必 在 意 的 值 ) 编 码 外 节点 。 这 是 浪费 比特 的 ,六 为 外 节点 不 需要 
编码 ,形状 掩 膜 已 经 指明 了 它们 的 状态 。 因 此 ,我 们 对 待 外 节点 应 该 与 对 待 零 不 同 。 尽 管 我 们 
不 想 使 用 比特 来 编码 外 节点 ,但 必须 决定 怎样 外 理 它 的 子 节点 。 一 种 方法 是 关于 不 必 在 意 节 
点 的 子 节点 的 状态 不 编码 任何 信息 。 这 样 ,我 们 总 是 假设 它 有 网 个 巴 节 点 要 进一步 检查 。 当 
解码 器 扫描 到 这 个 节点 时 ,形状 信息 就 会 告知 它 这 是 一 个 不 必 在意 的 节点 , 且 它 将 继续 扫描 这 
个 不 必 在 意 节点 的 四 个 子 节点 。 如 此 进行 ,就 不 必 对 树 结构 中 所 有 不 必 在 意 的 节点 编码 。 当 
树 结构 中 仅 有 稀疏 的 有 效 节点 时 ,这 种 方法 工作 得 很 好 。 这 种 方法 的 一 个 缺点 是 ,即使 不 必 在 
意 节 点 具有 四 个 零 树 根子 节点 ,如 果 把 不 必 在 意 节点 作为 零 对 待 , 它 仍然 必须 编码 四 个 零 树 根 
符 寻 而 不 是 编码 一 个 。 另 一 种 方法 是 有 选择 地 把 外 节点 作为 零 对 待 。 这 等 价 于 生成 另 一 种 符 
叶 来 编码 某 些 不 必 在 意 的 值 。 通 过 广泛 的 试验 ,已 经 发 现 不 编码 外 节点 的 方法 总 的 来 说 工作 
得 较 好 。 这 种 编码 算法 的 详细 描述 可 在 参考 文献 [10] 中 找到 。 

已 经 对 SA-DWT 编码 技术 进行 了 广泛 的 试验 ,并 且 其 结果 与 SA-DCT 编码 进行 了 比较 。 物 
体 的 形状 用 MPEG-4 的 形状 编码 工具 进行 编码 。 图 11.15 给 出 了 由 SA-DCT 和 SA-ZTE 方法 获 
得 的 PSNR 与 比特 率 的 关系 曲线 。 形 状 比特 不 包括 在 比特 率 内 ,因为 它们 不 依赖 于 纹理 编码 
方案 。 只 有 纹理 比特 率 用 于 压缩 。 比 特 率 (以 bpp 为 单位 是 基于 具有 重建 形状 的 物体 中 的 像 
素数 计算 的 ,并 且 PSNR 值 也 是 在 重建 形状 中 的 像素 上 计算 的 。 很 清楚 ,SA-ZTE 编码 可 以 比 
SA-DCT 达到 更 好 的 编码 效率 ,具有 1.5~ 2 dB 的 PSNR 改善 。 图 11.16(a) 和 (b) 分 别 示 出 了 由 
SA-DCT 和 SA-ZTE 编码 重建 的 物体 。 



































SA-DWT 与 SA-DCT 方 案 的 比较 
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图 11.15 SA-DWT( 在 这 种 情况 下 是 SA-ZIE) 编 码 与 SA-DCT 的 比较 
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(b) 


Æ 11.46 用 SA-DCT 和 SA-ZTE 重建 的 物体 :(a)SA-DCT(1.0042 bpp; PSNR-Y = 37.09 dB; 
PSNB-U = 42.14 dB; PSNR-V = 42.36 dB) s(b)SA-ZTE(0.9538 bpp;PSNR-Y = 
38,06 dB; PSNR-U = 43.43 dB; PSNR-V = 43.25 dB) 。 仅 未 出 了 Y 分 量 的 部 分 


11.3.2 


视频 
后 跟 频 率 
化 方案 和 
我 们 


视频 的 小 波 编码 


的 小 波 编码 技术 可 以 分 为 三 类 :(1) 空 
域 运 动 补偿 ;(3) 具 有 或 不 具有 运动 估 


间 域 运动 补偿 后 眼 二 维 小 波 变 换 ;(2) 小 波 变 换 
计 的 三 维 小 波 变换 。 不 同 的 运动 估计 算法 , 量 


灶 编 码 方法 可 应 用 于 这 三 类 中 的 每 一 类 。 














个 视频 编 解码 器 的 例子 来 说 明基 








F 小 波 的 视频 编码 过 程 [17]。 这 个 编 解 码 器 由 五 


个 主要 部 分 组 成:(1) 三 级 的 运动 估计 和 补偿 ;(2) 自 适应 小波 变换 ; (3) 多 级 量化 ;(4) 零 树 炉 编 码 ; 
《5) 智 能 比特 率 控制 。 编 解码 器 方 框图 如 图 11.17 所 示 。 首 先 ,进行 三 级 运动 估计 和 补偿 过 程 , 包 
括 全 局 运动 估计 可 变 的 块 尺寸 运动 估计 和 重 登 块 运动 补偿 。 然 后 用 小 波 滤波 器 把 运动 补偿 的 
残 差 帧 分 解 成 一 系列 多 分 辩 率 金字 塔 子 带 ,后 接 一 个 具有 不 同步 长 和 死 区 的 多 级 量化 器 。 最 后 
用 一 个 类 似 ZTE 的 (但 对 残 差 视频 小 波 系 数 最 优化 的 ) 编 码 器 对 量化 系数 进行 炉 编 码 。 

全 局 运动 估计 用 于 估计 摄像 机 运动 的 影响 并 把 图 像 序列 分 裂 成 不 同 的 层 。 每 一 层 具 有 它 
自己 的 全 局 和 局 部 运动 佑 计 。 全 局 运动 是 基于 二 维 仿 射 运 动 模型 估计 的 。 而 且 它 是 在 局 部 运 
动 佑 计 之 前 进行 的 。 

全 局 运动 估计 后 ,用 四 叉 树 结构 把 帧 分 裂 为 可 变 尺寸 的 块 ,范围 从 8x8 到 256 x 256 个 像 


素 。 然 后 








用 传统 的 块 匹配 为 名 个 块 寻找 MV。OBMC( 见 9.3.2 节 ) 用 被 各 自 的 MV 位 移 的 相 邻 


块 的 加 权 平均 作为 当前 块 的 预测 。 它 产生 一 个 较 平滑 的 运动 补偿 残 差 帧 的 版 本 。 由 于 可 变 块 
R TATEA, OBMO 使 用 最 小 的 块 尺寸 (在 这 种 情况 下 是 8 x 8) 以 及 连带 的 窗 西 数 作为 





用 于 预测 
小 波 


始 图 像 ) 


的 重 得 单元 。 























变换 用 于 运动 补偿 的 残 差 帧 。 由 于 对 残余 误差 帧 不 同 子 带 上 的 能 量 分 布 倾向 于 均 
名, 所 以 选择 小 波 滤 波 器 的 常规 准则 (紧缩 的 支撑 区 ) 变 得 不 太 重要 。 这 里 更 重要 的 准则 是 小 
波 沥 波 器 的 时 间 局 部 化 。 具 有 好 的 时 间 局 部 化 的 小 波 滤波 器 倾向 于 局 部 化 在 残 差 帧 { 比 在 原 














撑 区 ) 比 长 抽 头 滤波 器 (具有 较 好 的 紧缩 支撑 区 








更 经 常 遇 到 的 边缘 。 这 表明 短 抽 头 滤 波 器 (具有 较 好 的 时 间 局 部 化 但 较 差 的 紧缩 支 





但 较 差 的 时 间 分 辩 率 ) 的 效果 更 好 。 确 实 , 已 经 


发 现 哈 尔 (Haar) 变 换 [1] 能 相当 好 地 进行 这 个 工作 。 
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图 11.17” 某 于 小 波 的 视频 编 解码 器 的 方 框图 
DWT 后 接 小 波 变 换 系数 的 标量 量化 ,然后 进行 ZIE。 现 有 编码 器 中 的 比特 分 配 和 但 率 控 
制 可 分 为 三 级 ; (1) 呈 有 可 变 帧 举 的 时 间 域 比特 分 配 ;(2) 帧 间 比 特 分 配 ,给 出 最 佳 的 帧 间 比 特 
分 配 ;(3) 帧 内 比特 分 配 ,在 帧 内 产生 最 佳 的 比特 分 配 。 
已 把 这 种 方法 与 MPEG-4 中 基于 DCT 的 编码 器 进行 了 比较 [6]。 在 PSNR Jri, YR BE 
产生 相似 的 性 能 [25]。 已 经 发 现 编码 系统 中 量化 的 最 佳 化 , 粹 码 以 及 各 部 分 之 间 复 杂 的 相 
互 作用 比 最 优化 变换 本 身 更 重要 。 














11.4 小 结 





9 可 分 级 性 中 编码 方法 中 的 一 个 非常 有 用 的 特性 ,因为 它 允 许 灵活 性 ,并 自 适 应 于 :(1) 变 
化 的 网 络 带宽 ;(2) 变 化 的 信道 条 件 ;(3) 不 同 的 计算 能 力 。 对 于 在 具有 时 变 带宽 或 误差 
特征 网 络 上 的 传输 ,或 传输 到 具有 不 同 接 人 速率 或 处 理 能 力 的 接收 机 ,可 分 级 编码 器 是 
所 期 望 的 。 对 于 同一 个 视频 文件 可 以 被 具有 不 同 的 通信 链 路 和 计算 能 力 的 用 户 访问 的 
视频 流 应 用 系统 ,可 分 级 性 也 是 所 期 望 的 (在 第 15 章 中 将 进一步 讨论 视频 流 )。 

© 可 分 级 编码 器 可 以 具有 粕 问 隔 度 (两 层 或 三 层 ,这 些 也 称 为 分 层 编码 器 ) 或 细则 隔 度 。 
在 细 问 隔 度 的 极限 情况 下 ,比特 流 是 完全 典 人 式 的 ,并 可 在 任何 点 截断 。 

质量 .空间 .时间 和 频率 可 分 级 性 是 基本 的 可 分 级 机 制 。 可 以 把 这 些 方法 组 合 起 来 以 实 
现 较 细 问 隔 度 。 

© 在 周 定 的 空间 时 间 分 辨 率 下 获得 嵌入 式 流 的 一 种 方法 是 相继 地 编码 比特 平面 ,如 在 
MPEG-4 标准 的 绸 间隔 度 可 分 级 性 模式 中 和 在 大 多 数 基 于 小 波 的 编码 器 中 所 用 到 的 。 

© 可 以 很 容易 地 使 基于 小 波 的 编码 器 生成 戏 和 式 流 , 因 为 小 波 变换 提供 信号 的 多 级 表示 。 


11.5 习题 
11.1 分 层 编码 器 与 嵌 人 式 编码 器 之 间 有 什么 区 别 ? 给 出 每 类 编码 器 的 例子 。 
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11.2 描述 四 个 基本 的 可 分 级 性 模式 :质量 ,空间 ,时间 和 频率 。 

11.3 11.1.6 节 中 所 述 的 FGS 方法 是 如 何 工作 的 ?FCS 和 质量 可 分 级 性 之 间 有 何 区 别 ? 

11.4 考虑 i.i.d. 高 斯 过 程 。 和 殷 设 我 们 可 以 设计 一 个 达到 RD 界限 的 一 层 编码 器 ;也 就 
是 说 ,失真 与 码 率 的 关系 是 D = 012" Fb d BISA, WAR 
化 层 的 质量 可 分 级 编码 器 将 达到 与 这 个 一 层 的 编码 器 相同 的 RD 界限 。 把 证 明 
扩展 到 任意 的 层 数 。( 这 个 结果 意味 着 对 于 高 斯 过 程 ,SNR 可 分 级 性 能 达到 分 层 芒 
能 ,而 不 牺 性 编码 效率 ;这 就 是 所 谓 的 高 斯 过 程 的 连续 纲 化 性 质 。 为 进一步 研究 这 
一 课题 , 见 参 考 文献 [2]-) 

11.5 以 在 习题 9.15 中 为 基于 块 的 混合 视频 编码 器 所 编 的 程序 开始 , 为 实现 两 层 质量 
可 分 级 性 生成 代码 。 比 较 诛 始 编码 器 与 分 层 编码 器 对 一 个 测 坛 序列 的 编码 效率 。 

11.6 以 与 习题 1.5 相同 的 程序 并 始 , 为 实现 两 层 空间 可 分 级 性 生成 代码 。 比 较 原始 
编 妈 器 与 分 层 编码 器 对 一 .个 测试 序列 的 编码 效率 。 

11.7 卖 状 的 变换 (和 例如 DCT) 与 小 该 变 恢 之 问 的 主要 区 别 是 什么 ? BP 
什么 ? 

11.8 如 何 向 起 知道 EZW 方法 是 如 伍 1 作 的 局 学 描述 此 方法 ? 

1.9 为 什么 小 波 变换 更 适 于 咎 成 嵌 人 式 流 ? 如 何 分 类 出 EZW 方法 所 提供 的 可 分 级 性 
的 类 型 ? 它 提供 质量 ,空间 和 /或 频率 可 分 级 性 吗 ? 

1.10 用 哈 尔 小 波 滤 波 器 ( 低 通 滤波 器 :[1, 1] ,高 通 滤波 器 [1, ~ 1]) 实 现 图 像 的 两 级 小 
波 变换 。 当 - -个 所 选择 的 子 带 中 的 系数 置 为 零 时 ,考查 所 产生 的 图 像 的 质量 。 基 
于 这 些 图 像 ,评论 小 波 系数 的 一 个 特殊 的 带 揭示 了 哪 类 特征 。 
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BRE 立体 和 多 视 序 列 处 理 


体 视 序 询 和 (更 一 般 情 况 下 ) 多 视 序列 的 采集 和 强 示 有 许多 应 用 。 在 工业 中 , 立体 显示 用 
于 机 妖 人 在 危险 环境 下 进行 物体 的 处 理 和 检查 ,对 于 医学 应 用 场合 , 体 视 探测 提供 比 单 视 探 
测 更 有 用 的 信息 .对 于 科学 戎 探 和 显 像 , 体 视 或 多 视 显示 能 使 观看 者 通过 平面 的 “ 维 屏 幕 体 
验 二 维 坏 境 ”这 种 应 用 已 经 存在 很 从 了 ,传统 上 立体 序列 是 以 偿 拟 的 形式 进行 采集 AEA 
ARN. 然而 , 近 皇 来 数字 电视 技术 的 发 展 推进 了 二 mane 随 省 数字 电视 (包括 HDTY) 变 成 
现实 .可 以 预见 数字 三 维 电 视 将 是 电视 工业 的 下 一 个 “生子 跳 耻 "除了 有 希望 使 图 像 更 清晰 
外 ,还 提供 三 维 感觉 。 另 个 较 近 期 的 立体 /三 “NTA IE EID SS ALA BLS 1 IX Bt 
Sf ATR ME oR LAE A — BE BB ik CAR ETE) A EE EIE FHR 
幻觉 - 























在 本 齐 中 ,我 们 从 简单 地 讨论 人 类 视觉 系统 感觉 深度 的 机 于 下 始 (12.1 节 )。 然 后 转 到 立 
体 成 像 的 技术 方 而 ,说 明 在 立体 网 像 对 中 成 像 点 的 二 维 位 置 与 它 的 投影 的 关系 (12.2 节 )。 接 
下 米 我 们 讨论 在 立体 序列 处 理 中 技术 上 最 有 挑战 性 的 问题 :位 关 和 由 此 引起 的 深度 估计 (12.3 
入)。 然 后 描述 从 已 存 在 的 视图 内 插 中 间 视 图 的 方法 (12.4 乞 )。 最 后 ,我 们 给 出 编码 体 视 和 
多 视 视频 的 方法 (12.5 W). 选择 这 些 题 目 ,是 因为 它们 局 王 立体 和 多 视 系 统 的 估 呈 处理 领 
域 ; 关 于 立体 和 多 视 采 集 与 显示 系统 ,可 参见 参考 文献 [16]。 














12.1 深度 感觉 


休 视 成 像 和 显示 受到 了 人 类 通过 两 只 分 开 的 眼睛 来 感觉 深度 的 启发 尽管 存在 儿 种 人 脑 
用 米 区 分 不 同 深 设 物 体 的 单 日 线索 (例如 ,和 过 过 相对 的 大 小 和 运动 位 莽 ), 但 最 重要 和 有 效 的 机 
制 趾 通过 称 为 立体 感 的 双 日 线索 。 为 了 理解 体 视 系统 是 如 何 上 作 的 ,以 及 它 为 什么 能 这 样 工 
作 , 姬 解 这 种 现象 态 至 关 重 要 的 。 在 木 季 中 ,我 们 首先 描述 立体 感 是 如 何 产 生 的 。 然 后 给 出 深 
度 感觉 的 视觉 天敏 度 , 这 对 于 设计 三 维 视频 系统 非常 重要 。 


12.1.1 双 目 线索 一 一 立体 感 


为 了 能 释 立 体感 ,我 们 取 参 考 文献 [7] 中 的 一 一 个 例子 。 试 做 -下 这 个 实验 :把 一 个 手指 放 
在 你 的 只 前 。 当 看 这 个 手指 时 ,你 的 眼睛 涌 焦 在 手指 上 。 这 是 道 过 眼睛 的 肌肉 运动 完成 的 ,使 
于 指 的 图 像 沙 在 每 个 腿 隧 视网膜 的 中 央 凹 处 一 -也 就 是 每 个 视网膜 的 中 心 部 分 。 如 果 你 继续 
把 腿 睛 案 焦 在 手指 上 ,同时 注意 背景 ,你 将 觉察 到 背景 看 起 来 是 双重 的 。 另 一 方向 ,如 果 你 斌 
图 聚焦 在 背景 上 ,你 的 手 楷 将 出 现 两 个。 这 种 现象 示 于 图 12.1 

假设 我 们 可 以 把 左 视 网 腊 和 右 视 网 膜 二 的 图 像 取出 来 并 把 它们 县 在 -起 ,我 们 将 看 到 两 
个 几 予 重 秋 的 图 像 。 视 网 腊 位 差 是 指 重 区 的 视 网 腊 图像 相应 的 左 和 丰 图 像 点 之 间 的 水 平 距 
Be fi rN ABLE ee EMR REAR AI Je SEDONA aR LISS A HN. LR 
力 称 为 融合 ,产生 的 深度 感觉 称 为 立体 感 。 
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图 12.1 “个 理解 立体 感 的 实验 : (a) 当 眼睛 聚焦 于 大 拇指 时 ,背景 看 起 来 像 
是 两 个 图 像 i( 世 当 限 睛 凤 焦 十 背景 时 ,看 到 前 景 中 有 两 个 拇指 


12.1.2 深度 感觉 的 视觉 敏感 度 阅 值 


我 们 已 经 知道 了 人 是 如 何 感 觉 深 度 信息 的 , 接 下 来 的 问题 是 人 的 视觉 系统 对 空间 和 时 间 
上 深度 变化 的 敏感 程度 如 何 。 在 2.4 节 中 ,我 们 讨论 了 在 单 视图 像 中 检测 空间 (在 同一 个 二 维 
平面 ) 和 时 间 变 化 的 视觉 冰 值 。 我 们 知道 作为 室 间 频率 函数 的 对 比 敏感 度 在 低 时 间 频 率 上 亚 
示 带 通 特 征 (最 大 敏感 度 近似 为 4 cpd) ,在 高 时 间 频 率 上 显示 低 通 特性 。 类 似 地 ,关于 时 间 变 


化 的 视觉 敏感 度 在 低空 间 频率 是 莫 








EY) OK BUR EE ELF 8 ~ 15 Hz) ,在 高 空间 频率 是 低 通 


的 。 这 些 发 现 指导 了 视频 显示 系统 的 设计 。 为 了 总 示 有 眼睛 所 能 看 到 的 一 切 信息 ,设备 应 该 能 


生成 至 少 64 cpd 的 空间 频率 (以 像 


70 Hz 的 时 间 频 率 。 


素 为 学位 的 分 辩 率 可 次 于 图 像 的 高 和 宽 以 及 观看 距离 ) 和 


为 了 设计 二 维 视频 采集 和 显示 系统 ,重要 的 问题 是 深度 感觉 中 的 视觉 阔 值 。 因 为 深度 臣 

















通过 视网膜 位 差 感觉 的 ,所 以 可 根据 位 差 的 变化 来 估计 深度 的 视觉 敏感 度 。 以 下 引用 的 结果 


来 自 Pastoor [11]. 








对 空间 和 时 间 上 深度 变化 的 敏感 度 ”已 经 发 现 人 腿 对 位 差 的 空间 和 时 间 变 化 的 视觉 敏感 
度 显 车 地 低 十 对 图 像 对 比 度 变化 的 敏感 度 。 因 此 ,满足 对 比 度 征 感度 晒 数 的 空间 和 时 间 带 宽 
要 求 的 显示 系统 也 将 能 在 空间 利 时 间 上 满足 深度 变化 的 感觉 。 位 差 场 的 空间 频率 视觉 敏感 度 
县 有 带 通 特性 ,带宽 范围 为 3~4 cpd, 最 大 敏感 度 在 0.2 ~ 0.5 cpd 范 团 之 间 。 当 沿 深度 运动 时 
仍 可 察觉 位 差 的 时 间 变化 的 上 限 在 4~6 Hz 范围 内 。 

















对 位 差 量 化 的 敏感 度 








是 2 弧 秒 0。 当 并 和 右 图 像 的 水 平 图 像 分 辨 率 至 少 是 24 cpd 时 ,就 可 感觉 到 这 样 细微 的 深度 上 
的 差别 。 对 于 数字 显示 ,投影 位 差 被 量化 。 当 量化 太 粗 糙 时 , 场 攻 上 的 物体 可 能 看 起 来 像 是 局 
于 不 同 深度 上 的 几 必 平面 景物 ,下 物体 沿 深度 的 运动 也 可 能 看 起 来 是 不 平稳 的 。 


对 视角 量化 的 敏感 度 
维 显示 系统 提供 多 视点 时 





et 当 观 察 考 在 显示 器 前 改变 他 们 的 位 置 时 ,在 感觉 的 视图 之 间 





在 自然 视 党 中 , 当 观 看 者 移 动 时 , 他们 的 视 。 
, 仅 可 实现 有 限 数量 的 视点 ,可 以 把 它 看 做 视角 





点 连续 地 运动 、 在 用 二 











方向 的 量化 。 这 种 量 





会 发 生 突然 的 移动 。 


经 证 实 , 对 于 CCIR 质量 评价 尺度 主观 质量 被 认为 “好 "来 说 ,视角 移动 必须 处 本 近似 工 弧 


Laie et 173600 E o 
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分 的 阔 值 以 内 。 

不 对 称 空间 分 辨 率 要 求 ” 各 种 试验 已 表明 ,在 立体 品 示 中 , 当 幅 图 像 至 少 在 一 个 短 的 期 
间 内 以 视觉 的 空间 -时 间 阔 值 所 规定 的 足够 的 分 辩 率 显示 时 ,可 以 相当 大 地 降低 另 一 幅 图 像 的 
分 辩 率 (直到 一 半 ) ,而 不 会 引起 清晰 度 主观 印象 的 下 降 。 我 们 还 不 知道 当 长 时 间 观 看 时 ,这样 
的 显示 会 引起 的 视觉 攻 劳 程度 。 这 种 不 对 称 性 质 已 经 在 立体 序列 压缩 中 进行 了 研究 ( 见 
12.5,3 节 )。 通 过 在 水 平和 垂 占 方向 上 把 一 个 视图 的 采样 分 辩 率 都 减少 一 半 , 立 即 可 以 实现 4 
EES 

双 目 视图 的 异步 融合 在 位 差 值 的 一 定 界限 内 ,视觉 系统 能 够 融合 不 同步 显示 的 一 个 立 
PEAT SPOR ER, A A ZA A HEAR ALT 50 ms [14]。 这 一 实事 在 场 连续 显示 系统 中 已 
得 到 了 利用 。 当 被 显示 的 物体 运动 时 , 左 视图 和 右 视图 之 间 的 延迟 可 能 引起 深度 失真 ， 已 经 
发 现 160 ms 或 更 长 的 延迟 会 产生 可 视 的 深度 失真 。 





















































12.2 立体 成 像 原理 


体 视 成 像 和 显示 系统 是 模拟 人 类 的 立体 感觉 设计 的 :用 两 台 稍微 移动 了 位 置 的 摄像 机 末 
集 三 维 场景 ,然后 把 分 离 的 图 像 呈 现 给 每 只 眼睛 。 在 本 节 中 ,我 们 描述 体 视 成 像 的 原理 ,并 涪 
明 如 在 两 个 不 同 成 像 半 面 上 的 图 像 位 置 推出 它 的 深度 。 我 们 将 看 到 ,事实 上 ,尽管 
平行 排列 会 导致 深度 与 图 像 在 数学 上 的 简单 对 应 关系 ,为 了 采集 深度 信息 ,两 台 摄 像 机 不 必 一 
定 是 平行 的 { 像 人 眼 一 样 )。 我 们 将 从 吉 虑 具有 任意 位 置 的 两 台 摄像 机 系统 开始 。 然 后 集中 于 
两 种 特殊 情况 :一 种 情况 是 两 台 摄像 机 共享 一 个 相同 的 成 像 平面 , 另 一 种 情况 是 两 台 摄像 机 是 
相向 的 。 
12.2.1 任意 摄像 机 配置 

我 们 以 考虑 两 台 任意 放置 的 摄像 机 开始 。 考 虑 任意 摄像 机 配置 ,如 图 12.2 所 示 。 令 [R]， 
ALAR], 和 4) 表 示 对 齐 -个 所 选择 的 世界 坐标 (C, ) 和 左 ( 和 而 ) 摄 像 机 坐标 (C, M C,) 
所 要 求 的 旋转 盾 阵 和 平移 矢量 。 则 左右 摄像 机 坐标 X = [X Y, 2] 和 X= [X,Y ZT 
与 世界 坐标 和 = [X,Y,2]" 的 关系 为 : 












































X: = [R]X+T: X, = ĪR],X +T, (12.2.1) 
由 定义 ,矩阵 [R]; 和 [RR], PRE TESS AY, MASK (12.2.1) E X íE: 
X, = [R] [R] (X, - ED) + Tu = 有 R]1. + Ty (12.2.2) 
其 中 
[R] = [RI iR], T= T, - [R]; R}; T, (12.2.3) 


CGR ASAE Ze RIMARRA. 

FLAG SHAD hs GRU A AR BY, Ee X= [X,Y,Z] 与 图 像 坐标 
x=Lx,y]” 的 关系 为 公式 (5.1.2) 。 分 别 应 用 这 种 关系 于 X, M X, ,得 到 左 和 证 图 像 坐 标 x = 
Lav)? 和 x, [ray]: 


DUPE 1/60 BE. 
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nn nehy 
12.2.4 
X, Y, ( ) 
%= Fy, ye hg 
把 这 种 关系 代 和 {12.2.2) 得 到 : 
x, x 
a x |= FIRI, yr |+ Ta (12.2.5) 
F, F, 


MA LRA, RT OEE SEA Z 各, 只 要 它 的 图 像 位 置 x, Mx, 为 已 知 。 尽 
管 有 三 个 公式 ,但 仅 有 两 个 是 独立 的 ,从 它们 可 得 到 惟一 的 解 。 一 旦 知道 Z, 和 2. ,我 们 就 可 
用 公式 (12.2.4) 确 定 多 ,X,Y4,Y, ,最 后 用 公式 (12.2.1) 导 漠 参 考 坐 标 (XY, 了, Z)。 这 就 是 由 
立体 图 像 确 定 三 维 物体 的 结构 ( 即 它 的 各 个 点 的 三 维 位 置 ) 的 基本 原理 。 这 个 过 程 通常 称 为 立 
体 三 角 测 量 。 








图 12.2 —- PSR RE 


重建 的 三 维 点 (X,Y, Z) 实 际 上 是 来 自 左 图 像 点 和 右 图 像 点 的 投影 线 的 交点 。 如 果 两 个 
图 像 点 不 正好 是 一 个 三 维 点 的 投影 , 则 它们 的 投影 线 不 会 相交 。 这 将 使 公式 (12.2.5) 矛 盾 。 
最 小 平方 解 将 是 连接 这 两 条 投影 线 的 最 短线 的 中 点 L221。 
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相同 三 维 位 置 的 左 . 石 图像 坐 标 之 闻 的 位 移 矢 量 称 为 位 差 失 其 {DY) 或 简称 位 差 了 ， 位 其 
矢量 可 以 在 左 或 右 图 像 坐标 上 定义 。 例 如 ,如 来 我 们 用 右 阁 像 位 置 作为 基准 ,那么 位 差 定义 为 
左 坐 杯 关于 给 定 的 右 坐 标的 位 移 ; 即 d(x,) =x (x) - x。 由 立体 图 像 进行 三 维 结构 估计 的 
主要 朵 难 在 于 确定 位 差 撩 量 ; 或 等 价 地 是 建立 左右 图 像 点 之 间 的 对 应 。 


12.2.2 平行 摄像 机 配置 


立体 成 像 最 流行 的 妃 置 是 使 用 具有 平行 成 像 平面 的 黄 台 摄像 机 ,它们 位 于 世界 坐标 的 相 
ij 区 了 平面 ,如 图 12.3 St. PR BRL RAS Bk eR Re eT 8 RA. M B 接近 人 
的 两 只 眼睛 的 距离 (2.5~ 3 英寸) 时 ,这 种 配置 模拟 人 的 冯 目 成 像 WRATH BS 
POR Be (CN RL EA 8, SE RL eo 表示 ,那么 公式 
(12.2.1) 45 (12.2.2) PH RAK ER: 




















入 = (12.2.6) 
ae BABE eA oP yoy aye et (12.2.7) 


我 们 也 可 以 直接 根据 图 12.3(b) 导 出 上 述 关系 ， 位 差 矢量 在 这 种 情况 下 仅 有 水 平分 量 , 与 深 
度 的 关系 为 : 
FB 


d= yx, 2 > (12.2.8) 
NY PA R HE Ped FR A ERIR IE F IR AS MB A 
~- Bix ta) y By , FB 
X= a ,了 = =f: Z= z (12.2.9) 


些 关系 形成 由 位 差 信息 导出 深度 从 出 导出 二 维 结构 信息 的 基础 

公式 (12.2.8) 在 立体 序列 分 析 中 起 着 重要 的 作用 。 吕 以 从 这 个 关系 中 导出 儿 个 很 有 趣 
的 性质 ， 首 先 X,Y, ZMIE S XAY BER RAY, AAG Z 值 成 反比 。 物 体 
总 离 摄 像 负 越 近 ,位 差 们 就 越 大 。 对 于 远离 报 像 机 的 物体 点 ,位 差 值 减 小 -其 次 ,位 差 值 的 范 
HROM # 即 两 台 摄 像 机 之 问 的 了 距离 ) 的 增 大 而 增加 。 最 后 ,根据 我 们 的 位 差 定义 , ad 总 是 
让 的 。 这 竺 价 于 对 于 同一 个 三 维 点 , 左 坐 标 总 是 大 于 左 坐 标 ,从 图 12.3 清楚 可 见 。 

图 12.4 未 出 了 一 个 用 平行 摄像 机 效 得 的 立体 对 号 。 很 明显 ,左右 图 像 中 的 对 应 点 在 相同 
的 水 平 线 上 , 且 较 近 的 物体 ( 较 大 的 球 ) 具 有 较 大 的 水 平 位 差 。 


12.2.3 ”会聚 摄像 机 配置 


在 会 聚 立体 配置 中 ,两 台 摄 像 机 的 图 像 平面 是 互相 做 斜 的 ,使 它们 的 焦 线 会 聚 于 具有 相同 
好 高 的 一点 ,如 图 12,5 所 示 。 两 台 摄 像 机 之 间 的 角度 称 为 会 涌 角 。 在 图 中 ,我 们 假设 世界 坐 
标 诛 点 在 左右 坐标 之 间 的 中 点 ,而 9 是 会 请 角 的 一 六 。 对 于 这 种 设置 , 左 、 丰 摄像 机 坐标 与 
址 办 坐标 的 关系 为 ; 
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图 it2.4 由 两 台 平行 摄像 机 采集 到 的 立体 图 像 对 。 如 果 分 别 用 左 眼 
和 和 右 归 看 左 图 像 和 右 图 像 , 应 该 看 到 三 个 位 于 不 同 深度 的 球 
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cos? O -sing cosOB/2 
R, -| 0 1 0 Jn = | 0 | (12.2.10) 
sind O cos singB/2 
cosg O sind — cosĝB/2 
R, = 0 1 0 [an -| 0 | (12.2.11) 
-sin 0 cos singB/2 


把 上 述 关系 代入 公式 (12.2.2) 和 (12.2.4) 得 到 : 


cos?(X + B/2) - sinz . F Y 

sinô (X + B/2) + cosdZ' Y” T " sin@CX + B/2) + cosdZ 
_ p COX = B12) -sing y Y 
SF _ sind X BN) + cosdZ? Y= 
我 们 也 可 以 根据 图 12.5(b) 所 示 导 出 上 述 关 系 。 由 这 些 公 
ZERIO, Y, DZURA 


FIO ARR AL 


X = 




















图 12.5 ARERIA R: (a) 一 维 祝 图;(b) 2 横 截面 视图 (了 =0) 
PINARA, L(G FR AEAT EVE BES My KETA E LP UE RE 然而 ， 


mo - BPR) y cosas 《12.2.12) 


式 ,可 以 导出 水 平 ( 和 垂直 ) 位 差 与 
Rs 这 个 关系 不 如 平行 摄像 机 情况 上 的 直接 。 当 6 较 小 (小 
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当 由 会 育 立 体 摄像 机 采集 的 立体 对 被 直接 投影 到 屏幕 上 观看 时 .感觉 到 的 深度 是 失真 的 。 一 
个 众所周知 的 效应 是 梯形 失真 。 这 指 的 是 这 样 一 个 事实 : 当 摄取 一 个 具有 相等 间隔 线 的 邱 形 
点 阵 时 , 左 摄像 机 显现 的 两 条 相 邻 线 之 间 的 垂直 距离 好 像 左 边 的 比 右边 的 大 ( 右 摄像 机 所 生成 
的 图 像 有 相反 效果 )。 一 个 由 会 聚 摄像 机 获得 的 立体 对 的 例子 示 子 图 12.6。 当 用 平行 投影 配 
置 显示 并 用 人 有 眼 现 看 时 ,这 样 的 生 直 位 差 将 引起 深度 感觉 的 问题 。 为 了 显示 会 紊 摄像 机 系统 
采集 的 图 像 , 需 要 几何 校正 (也 称 为 图 像 校 正 ), 以 便 使 校正 的 图 像 看 起 来 好 像 是 用 平行 设置 采 
集 的 。 

















图 12.6 一 -个 用 会 察 摄像 机 获得 的 立体 对 的 例子 (注意 梯形 效应 ) 


12.2.4 外 极 几何 


12.7 示 出 了 任意 立体 摄像 机 配置 中 三 维 点 的 左右 图 像 之 间 的 关系 。 用 多 表 示 任 意 先 
择 的 三 维 点 ,由 该 点 以 及 左右 摄像 机 的 光学 中 心 C, 和 C, 定义 的 平面 OD 称 为 外 极 平面 。 这 个 
平面 与 左右 图 像 平 面 I, 和 区 的 交 线 称 为 左 (连接 x 和 e 的 线 ) 右 (连接 x A e, 的 线 ) 外 极 
线 ,分 别 用 opi Mep, RR. Ci 在 右 图 像 中 的 像 e, 称 为 右 外 极 。 类 似 地 ,C, 在 左 图 像 中 的 像 
e: 称 为 左 外 极 。 我 们 看 到 ,对 于 落 在 左 外 极 线 上 的 任何 成 像 点 , 它 在 右 图像 中 的 对 应 像素 一 
定 在 右 外 极 线 上 。 这 就 是 所 谓 的 外 极 约束 。 可 用 这 个 性 质 来 约束 位 差 估计 的 搜索 范围 ,如 在 
12.3 节 中 所 讨论 的 。 

注意 ,存在 一 个 外 极 平面 和 两 条 相应 的 与 每 个 所 选择 的 图 像 点 有 关 的 外 极 线 。 例 如 ,给 定 
左 图 像 上 的 一 点 x, , 它 的 左 外 极 线 是 连接 该 点 与 左 外 极 e 的 线 。 它 相应 的 右 外 极 线 是 连接 该 
点 在 右 视图 上 的 像 x, 与 右 外 极 (e, ) 的 线 。 所 有 左 外 极 线 都 通过 左 外 极 , 而 所 有 右 外 极 线 都 通 
过 右 外 极 。 

图 像 点 与 它 的 外 极 线 之 间 的 关系 取决 于 摄像 机 设置 。 立 体 成 像 中 的 一 个 非常 重要 的 结果 





















































是 这 种 关系 可 以 用 一 个 称 为 基本 矩阵 的 3 x 3 矩阵 [F] 完 全 地 表征 。 令 gr = [x7,1],i = 1,7， 
其 中 ,z Ax, 表示 同一 个 三 维 点 的 左 像 和 右 像 0。 它们 的 关系 为 : 
LIF], =0, WIF]R,=0 (12.2.13) 


Dk = [a7 ,1] 是 x 在 齐 次 坐标 (也 称 为 投影 坐标 ) 中 的 表示 。 用 齐 次 坐标 可 把 大 多 歼 在 透视 成 像 中 所 遂 到 的 非 线性 
关系 转换 成 线性 关系 。 
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图 !2.7 任意 摄像 机 配置 的 外 极 几何 学 
在 图 12.2 所 示 的 简化 配置 中 ,基本 矩阵 仅 取决 于 两 个 摄像 机 坐标 的 相对 关系 ,[R],,,t,,0。 


- 般 地 , 它 也 将 取决 于 摄像 机 的 固有 参数 。 关 于 上 述 结果 以 及 





Fj 与 摄像 机 参数 之 间 


司 的 关系 的 扒 


导 , 污 者 可 参考 Faugeras 的 优秀 著作 [3]。 当 摄像 机 参数 未 知 时 , [Fj] 中 的 元 素 可 以 基于 公式 
点 来 估计。 关于 这 一 课题 可 参阅 参考 文献 [23]。 
对 于 平行 摄像 机 设置 ,外 极 在 无 穷 远 点 而 外 极 线 都 是 水 平 的 ,如 图 12.8 所 示 。 对 于 右 图 





《12.2.13) ,由 一 组 在 左 , 右 图 像 中 检测 到 的 对 应 











像 中 任意 给 定 的 点 &% ,与 该 点 有 关 的 左右 外 极 线 简单 地 是 与 该 点 有 相同 














一 方面 ,对 于 会 育 配 置 ,左右 外 极 线 是 互相 倾斜 的 。 这 可 以 很 容易 地 在 图 12.6 4 
例 图 像 中 观察 到 。 然 而 , 当 角 8 足够 小 时 ,外 极 线 可 以 作为 水 平 的 希 待 。 


给 定 由 两 台 会 聚 摄像 机 所 获得 的 一 对 图 像 ,可 校 了 


台 平行 摄像 机 采集 的 。 在 视觉 上 ,其 效果 是 对 

















图 像 对 的 映射 ,使 得 原来 倾斜 的 一 


y 坐标 的 水 平 线 。 另 





ph 所 给 出 的 示 


E 它 们 ,使 校正 后 的 图 像 看 起 来 像 是 用 两 





外 极 线 变 成 


水 平 的 和 平行 的 。 这 种 校正 可 大 大 简化 位 差 估 计 间 题 。 对 于 用 平行 投影 系统 显示 这 类 图 像 也 
需要 这 种 校正 。 从 上 述 讨论 回想 一 下 ,外 极 约束 是 由 联系 两 台 摄 像 机 的 基本 矩阵 完全 表征 的 。 
因此 ,校正 过 程 的 关键 是 确定 基本 矩阵 。 实 际 上 ,可 能 不 会 精确 地 知道 摄像 机 配置 参数 ,从 而 
必须 由 两 个 给 定 图 像 中 对 应 的 特征 点 来 确定 基本 和 矩阵。 讨论 摄像 机 校准 和 校正 的 技术 超出 了 
本 章 的 范围 ;读者 可 参阅 参考 文献 [19,3] 以 较 好 地 了 解 这 一 课题 。 
































中 ”基本 短 阵 把 左右 图 像 中 对 应 的 点 通过 公式 (12.2.13) 联 系 起 来 。 在 第 7 章 , 我 们 了 解 到 旋转 和 位 移 前 后 的 三 维 物 体 图 
像 是 由 本 质 矩 阵 通过 公式 (7.1.11) 联 系 的 。 显 然 , 如 果 我 们 把 [下 Jr 和 Tu 作为 成 像 物体 的 运动 参数 , 则 基本 矩阵 等 价 


TRAER, 
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12.3 位 差 估计 


如 前 面 一 节 所 介绍 的 ,位 差 是 指 成 像 场景 中 一 个 三 维 , 工作 于 全 
的 位 移 。 如 在 那里 所 说 明 的 ,根据 与 立体 图 像 对 中 两 个 对 应 点 有 关 的 位 差 , 司 导 出 与 
关 的 深度 ,从 而 导出 它 在 真实 世界 中 完全 的 三 维 坐标 。 由 于 这 个 原 内 ,位 差 估计 在 任何 三 er 
或 视频 处 理 系统 中 都 是 重要 的 一 步 。 它 对 于 在 给 定 视图 之 间 生 成 中 间 视 图 也 是 重要 的 。 

位 差 估 计 问 题 与 运动 估计 问题 类 似 ,它们 都 需要 在 两 幅 图 像 的 像素 之 间 建 立 对 应 关系 。 
在 非 基于 特征 的 方法 中 ,对 于 一 帐 图 像 中 的 每 个 点 ,任务 是 要 确定 它 在 另 一 幅 图 像 中 的 对 应 
点 ,或 当 它 在 另 一 幅 图 像 中 被 迹 挡 时 标示 它 。 对 于 基于 特征 的 方法 ,任务 是 首先 在 一 幅 图 像 中 
检测 某 些 特征 点 ,然后 寻找 它们 在 另 一 由 图像 中 的 对 应 位 置 。 在 运动 估计 中 ,两 幅 图 像 在 时 间 
上 尾 不 同 的 ,而 在 位 差 估计 中 ,两 幅 图 像 是 同时 但 从 不 同 的 摄像 机 视点 取得 的 。 

位 差 估 计 比 运动 估计 更 复杂 上 且 更 具有 挑战 性 。 第 一 ,一 般 在 场景 中 仅 有 有 限 数目 的 物体 
运动 ,因此 对 大 多 数 像素 MV 都 是 零 。 然 而 ,在 立体 成 像 中 ,除了 那些 远离 图 像 平 面 的 像素 以 
外 ,几乎 所 有 的 像素 都 有 非 零 位 差 。 第 二 ,MYV 的 范围 一 般 是 相当 有 限 的 ,而 对 于 接近 摄像 机 
的 物体 ,位 善 矢量 (DYV) 可 能 非常 大 。 例 如 ,对 于 BT.601 视频 , MV 一 般 都 不 会 超过 几 个 像素 ， 
而 DV 在 水 平方 向 上 可 达到 40 ~ 50 个 像素 ,而 在 垂直 方向 上 达到 5 个 像素 (假设 采用 稍微 会 聚 
的 摄像 机 配置 )[ 6]。 显 然 ,如 果 用 类 似 于 运动 佑 计 的 块 匹 配 算法 的 搜索 技术 ,搜索 区 域 必须 大 
大 增加 。 块 效应 也 会 更 明显 ,因为 块 状 的 恒定 模型 不 能 很 好 地 近似 位 差 变化 。 

除了 在 位 差 世 中 存在 更 多 的 如 下 面 所 描述 的 物理 上 引入 的 约束 外 ,位 差 估 计 的 一 般 方法 
非常 类 似 于 运动 估计 。 基 本 -上 ,必须 建立 一 个 目标 函数 来 测量 一 个 给 定 的 视图 与 它 用 位 差 补 
偿 预 测 (DCP}) 由 其 他 视图 预测 的 版 本 之 间 的 误差 。 如 果 我 们 假设 位 差 场 是 平滑 的 ,那么 可 把 
一 些 平滑 性 测度 加 到 肯 标 普 数 中 去 。 在 物体 边界 或 中 挡 区 域 这些 平 滑 性 约束 应 该 是 宽松 的 。 
估计 的 参数 进一步 受到 一 些 物理 约束 。 各 种 方法 之 问 的 不 同 之 处 在 于 位 差 场 的 参数 化 以 及 搜 
索 方 法 。 在 下 面 ,我 们 首先 描述 一 些 对 位 差 估计 有 用 的 重要 的 约束 ,然后 给 出 几 种 估计 方法 。 


12.3.1 位 差分 布 的 约束 


DY 是 由 摄像 机 几何 和 物体 表面 的 连续 性 约束 的 。 这 些 约束 如 打上 明知 地 使 用 , 则 在 位 差 估 
计 中 是 非常 有 益 的 。 
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外 极 约束 ”对 于 一 个 给 定 的 立体 成 像 配 置 , 外 极 约束 是 指 立 体 对 中 对 点 的 像素 总 是 在 各 
自 的 外 极 线 上 。 回 想 前 面 讲 过 的 内 容 , 如 果 已 知 基 本 矩阵 ,那么 给 定 (比如 种 图 像 中 的 ) 任 意 一 
点 ,可 用 公式 (12.2.13) 确 定 左 图 像 中 的 外 极 线 , 这 个 公式 定义 了 该 点 在 左 图 像 中 所 有 可 能 的 
位 置 。 因 此 ,我 们 只 需 沿线 搜索 。 

对 于 平行 摄像 机 配置 ,外 极 线 与 图 像 的 水 平 扫描 线 平行 ,从 而 我 们 可 以 把 搜索 限制 在 右 图 
像 点 所 在 的 水 平 线 上 。 当 摄像 机 配置 是 非 平行 时 ,尽管 可 以 拒 搜 索 限制 在 相应 的 实际 摄像 机 
配置 的 外 极 线 | ACL -个 更 简单 的 方法 是 先 把 左右 图 像 映 射 成 平行 的 配置 ,然后 应 用 平行 配置 
的 步骤 [21]。 在 每 一 种 情况 下 ,我 们 必须 先 估计 摄像 机 的 儿 何 参数 或 基本 矩阵 , 它 对 于 确定 外 
极 线 以 及 对 于 再 投影 是 必需 的 。 

平行 摄像 机 的 单 向 性 如 12.2.2 节 所 述 ,对 于 平行 摄像 机 配置 ,DV 只 有 水 平分 量 且 总 是 
FE AACE BS GEK PAKE BE). 

顺序 约束 ”假设 成 像 物体 是 不 透明 的 , 则 物体 点 的 相对 位 置 在 场景 的 两 个 视图 中 是 相同 
的 :者 左 视图 中 “个 特征 点 在 和 “个 特征 点 的 左近 , 则 在 右 视 项 中 它 也 在 左边 。 设 x M xa 
表示 在 右 图 像 中 网 一 个 水 平 线 上 的 两 点 ,日 假设 mx: < ee METER x, <a RNA 
da> drat xa = xa, BARENE d RIFERIT 4 的 搜索 范围 .特别 地 ,对 于 
右 图 像 中 的 相 邻 像素 ( 即 , zx = x +1) ,它们 的 位 差 关系 为 :d,s > dai ~ Le 


12.3.2 位 差 函 数 模型 


对 于 给 定 的 摄影 配置 ,位 差 是 深度 的 确定 性 函数 。 给 定 一 个 实际 表面 函数 的 模型 ,可 导出 
位 状 函 数 对 应 的 模型 。 这 样 的 模型 有 助 十 位 差 估计 。 
考虑 最 简单 的 情况 ,其 中 ,成像 场 景 的 表面 可 由 一 个 平面 近似 ,从 而 有 : 




























































































ZUX,Y) = aX + l¥ + (12.3.1) 
用 公式 (12.2.6) 和 {12.2.7) ,我 们 可 用 右 图 像 坐 标 重 写 2: 
Bas) = a( B42) ne 02.3.2) 
或 
Zla,,7,) = SMS (12.3.3) 
TUARI, Ze E pRB FR SAE op REAR EL 把 上 述 结果 代 人 公式 (12.2.8) 得 ; 
40,09) = appl BF - an, by,) (12.3.4) 
央 此 , 当 表 面 基 一 平 而 时 ,位 差 国 数 在 图 像 坐 标 中 是 仿 射 的 。 











事实 上 ,成 像 场 景 的 整个 表面 ( 即 深度 分 布 ) 不 能 由 一 个 平 曾 很 好 地 近似 。 然 而 , 它 一 般 可 分 成 
很 小 的 小 抉 .使 得 每 个 小 块 是 近似 平坦 的 。 用 上述 结果 ,我 们 可 以 把 每 个 小 块 上 的 位 差 明 数 模型 化 
为 仿 射 。 这 样 位 差 估计 问题 就 转变 成 对 每 个 小 天 的 三 个 仿 射 参数 的 估计 ,等 价 于 在 每 个 小 块 的 二 
个 角 点 (节点 ) 处 估计 位 差 ( 只 估计 a.)。 如 果 我 们 用 二 角形 网 格 表示 整个 表面 ,那么 位 差 估 计 问 题 
可 简 化 为 贷 计 节点 处 的 位 差 。 然后 , 每 个 小 块 中 的 位 差 函 数 通过 使 用 仿 射 模型 从 节点 中 内 插 来 
获得 。 

用 类 似 的 方法 ,我 们 也 可 导出 较 高 阶 ( 弯 曲 的 ) 表 面 的 位 差 模型 。 这 样 的 参数 模型 对 位 差 
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估计 非常 有 用 。 
12.3.3 BPR 


这 种 方法 假设 参考 视图 的 每 个 小 方块 上 的 位 差 函 数 可 描述 为 - -个 常量 或 一 个 低 阶 多 项 
式 。 基 于 估计 的 位 差 葬 数 (即位 差 补 偿 ), 通 过 使 扭曲 后 的 两 视图 之 间 的 误差 最 小 来 确定 常量 
位 差 或 多 项 式 系数 。 可 采用 在 基于 块 的 运动 估计 中 使 用 的 穷尽 或 梯形 下 降 搜索 法 。 但 搜索 应 
该 是 通 当 受 限 的 ,使 用 12.3.1 节 中 所 描述 的 约束 。 在 假设 位 差 为 常数 的 特殊 情况 下 ,只 须 搜 
索 单个 水 平 位 移 , 且 只 需 在 一 个 方向 上 搜索 , 沿 正方 向 还 是 负 方 向 取决 于 用 哪个 视图 作为 基 
准 。 然 而 ,与 运动 估计 相 雍 较 , 如 果 成 像 场景 中 的 深度 变化 相对 较 大 ,或 摄像 机 之 间 的 基线 分 
离 较 大 , 则 搜索 范围 应 该 大 得 多 。 为 了 克服 与 潜在 的 非常 大 的 位 产值 有 关 的 困难 ,应 该 采用 例 
如 6.9 告 申 所 描述 的 分 层 搜索 策略 。 基 于 块 的 估计 方法 的 一 个 好 的 综述 可 以 在 参考 文献 [20] 
中 找到 。 
与 运动 估计 不 同 ,在 送 动 估计 中 块 状 恒定 模型 对 计 大 量 的 块 是 相当 精 傅 的 , 击 这 种 模型 只 
适合 相应 块 的 表面 小 块 是 与 成 像 平面 平行 的 平坦 表面 的 情况 ,但 这 种 情况 很 少 。 然 而 , 当 块 尺 
才 足 够 小 时 , 仿 射 模型 是 相当 好 的 。 企 这 种 情况 下 ,相应 于 每 个 块 的 表面 小 块 近似 平坦 ,并 且 
《如 12.3.2 节 所 未 ) 仿 射 函 数 很 好 地 描述 平坦 小 块 上 的 位 差 函数 。 


12.3.4 二 维 网 格 的 方法 


除 块 状 恒定 模 型 外 ,在 运动 佑 讨 中 所 撕 述 的 基于 网 格 的 方法 也 可 用 -于 位 差 估计 。 在 这 种 情况 
下 ,首先 在 基准 视图 (比如 左 视图 ) 中 应 用 网 格 ,并 试图 在 右 视图 中 找到 对 应 的 节点 位 置 。 注 意 ,每 对 
相应 的 二 - 维 网 格 元 察 可 认为 是 一 个 三 维 表面 小 块 在 左右 图 像 上 的 投影 ,如 图 12,9 所 示 。 与 运动 估 
计 一 样 ,最 好 用 左右 视图 之 间 的 节点 位 移 来 参数 化 位 差 函 数 ,而 不 用 仿 射 或 双 线 性 模型 中 的 多 项 式 
系数 。 类 似 于 基于 网 格 的 运动 佑 计 方 法 (6.6 节 ), 可 通过 使 对 应 元 素 之 间 的 位 差 补偿 预测 误差 最 小 


















































































































































来 估 订 节点 位 差 。 如 果 图 像 是 用 平行 配置 获得 的 ,只 需要 搜索 水 平 位 差 。 
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图 12.9 三 维 网 格 与 二 维 网 格 之 间 的 对 应 
在 参考 文献 [21] 中 描述 了 一 种 这 样 的 方法 。 如 图 12.9 所 示 , 用 一 个 矩形 网 格 描述 左 视图 ,根据 
左 视图 中 对 应 的 节点 水 平地 移动 右 视图 中 的 节点 。 每 个 元 罕 内 的 位 差 消 数 被 模型 化 为 双 线性 的 ， 
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从 测 对 应 于 这 个 元 素 的 三 维 小 决 是 弯曲 的 表面 。 为 了 确定 每 个 节点 的 水 平 位 差 ,与 该 节点 相连 的 
个 二 素 求 和 获得 的 位 差 补偿 误差 被 最 小 化 。 不 进行 穷尽 搜索 ,而 使 用 基于 梯度 的 快速 算法 。 

图 12.10 比较 了 对 于 一 个 立体 狂 像 对 样本 (* 人”) ,用 基于 块 的 方法 和 上 述 基 于 网 格 的 方 
法 [21] 进 行 位 差 估计 的 结果 。 这 个 图 像 对 是 用 基线 距离 为 50 cm 的 两 台 平行 摄像 机 获得 的 。 
这 种 大 的 基线 距离 导致 两 个 图 像 之 问 有 非常 大 的 位 差 值 。 先 估计 全 局 位 差 ,并 在 局 部 位 差 佑 
计 之 前 用 全 局 位 差 补 偿 右 图 像 。 块 匹配 算法 (假设 每 个 块 内 是 恒定 位 差 ) 用 16 x 16 ARA 
+ 100 个 像素 的 搜索 范围 。 基 于 网 格 的 方法 使 用 -~ 个 元 素 尺寸 为 32 x 16 的 左 图 像 上 的 矩形 网 
格 ,并 在 右 图 像 中 水 平地 移动 节点 位 置 , 以 使 对 应 元 索 之 问 的 位 差 补偿 误差 为 最 小 。 尽 管 块 匹 
配 算法 对 于 预测 图 像 产生 较 高 的 PSNR ,但 基于 网 格 的 方法 将 产生 视觉 上 更 精确 的 预测 。 




























































































图 12.10 (a) 原 始 左 图 像 ;Lb) 原 始 右 图 像 ;(c) 由 块 匹 配 算法 获得 的 预测 右 图 像 ( 前 景 上 
的 PSNR 为 32.03 昌 );(d) 由 基于 网 格 的 算法 获得 的 预测 右 图 像 (前 景 上 
的 PSNR 为 27.28dB);(e) 用 参考 文献 [2] 的 动态 编程 方法 获得 的 预测 右 图 像 


这 个 方法 在 整个 基准 图 像 上 覆盖 规则 的 网 格 。 这 将 在 物体 边界 附近 和 深度 不 连续 的 地 方 
引起 佑 计 误 差 。 一 个 蒂 好 的 方法 (尽管 较 复 杂 ) 是 生成 一 个 跟随 物体 轮廓 的 网 格 , 且 人 允许 不 连 
续 的 物体 边界 。 例 如 ,如 果 生 成 的 网 格 使 每 个 网 格 元 素 对 应 于 一 个 近似 平坦 的 表面 小 块 ,那么 
这 个 元 家 上 的 位 差 函 数 可 用 仿 射 函数 精确 地 模型 化 ,如 12.3.2 节 所 示 。 在 这 种 情况 下 ,三 角 
形 网 格 将 是 较 适 合 的 。 

采用 基于 网 格 的 位 差 估计 的 好 处 是 容易 用 产生 的 位 差 信息 构造 中 间 视 图 。 这 个 主题 将 在 
12.4 节 中 进一步 讨论 。 
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12.3.5 利用 动态 编程 的 线 内 边缘 匹配 


根据 平行 成 像 几何 (或 在 图 像 校 正 后 


), 外 极 线 是 水 平 扫描 线 。 因 此 ,给 定 一 条 水 平 扫描 





线 ,应 该 只 在 这 条 线 内 搜索 左右 图 像 中 的 相应 的 点 对 。 不 是 在 所 有 像素 之 间 搜 索 匹配 ,我 们 可 
以 寻找 这 条 线 .的 所 有 边缘 点 ,并 这 图 把 右 图 像 上 的 每 个 边缘 像素 与 左 图 像 上 的 一 个 边缘 像 
索 进 行 匹 配 。 沿 着 这 条 线 搜索 匹配 对 可 以 转化 为 存 二 维 搜索 平面 上 寻找 一 条 路 径 的 问题 ,该 
平面 的 乘 直 和 和 水 平 轴 是 右 和 左边 缘 位 置 , 如 图 12.11 所 示 。 该 图 假设 在 左右 图 像 中 分 别 有 M 
FIN 个 边缘 点 。 每 个 节点 对 应 右边 缘 点 与 左边 缘 点 的 结合 。 一 般 地 ,不 是 所 有 在 右 图 像 中 看 
色 的 边缘 像素 也 都 将 出 现在 左 图 像 中 。 并 且 , 右 图 像 中 的 一 个 边缘 像素 可 能 对 应 左 贺 像 中 的 
几 个 边缘 点 或 - ' 个 点 也 不 对 应 。 这 些 情况 发 生 在 物体 的 某 些 部 分 在 一 个 视图 中 可 观察 到 而 在 












































另 一 个 视图 中 被 遗 挡 的 时 候 。 因 此 ,号 配 本 能 姑 一 对 多 、 多 对 一 或 一 对 零 的 。 然 而 ,合理 的 匹 








配 应 该 满足 顺序 约束 。 从 有 图 像 中 的 最 左边 的 边缘 像素 开始 ,对 于 右 图 像 中 的 每 个 新 的 边缘 
像素 , 它 在 左 图 像 中 的 匹配 边缘 点 必须 在 剩余 的 木 号 配 边缘 当中 或 是 在 前 -- 步 匹配 的 那 一 个 。 
因此 ,合理 的 路 径 是 不 返回 的 ,无 论 是 在 水 平方 向 还 是 在 垂直 方向 上 。 如 果 我 们 在 图 的 每 个 可 
能 的 节点 分 配 一 个 代价 , 则 该 问题 就 是 寻找 从 起 始 对 (mo) 到 终 赴 对 (m, ) 的 最 佳 路 径 ,使 总 的 
代价 为 最 小 。 例 如 ,对 于 给 定 的 节点 ,代价 可 确定 为 像素 之 闻 的 平方 或 绝对 误差 之 和 ,这 些 像 
素 是 在 定义 该 节点 的 岗 个 边 绿 像素 周围 的 -个 小 窗 中 的 对 应 像素 。 它 也 可 能 包括 在 当前 节点 
和 前 一 个 节点 之 间 的 对 应 像素 之 间 的 误差 。 
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的 边缘 上 。 伐 进 扫 描 线 之 间 的 这 种 HE 
些 与 在 前 面 的 线 中 已 发 现 的 正 配 不 一 致 的 











面 是 由 二 维 此 配 路 径 的 堆积 定义 的 。 


右 图 像 中 雌 个 点 位 于 垂直 连接 的 边缘 上 , 则 很 可 能 在 左 疼 像 中 它们 对 应 的 点 也 位 于 垂直 连接 





的 一 逢 方 汰 十 在 代价 定义 中 包括 -个 惩罚 项 ,对 那 
匹配 赋 以 更 高 的 代价 。 通 过 这 种 修正 ,可 把 立体 匹 








配 问题 模型 化 为 寻找 一 个 最 佳 地 满足 扫描 线 内 匹配 和 扫 撒 线 间 -一致 性 的 表面 。 这 里 ,匹配 表 
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Ohta 和 Kanade! 10] 首 先 提出 地 位 差 估计 问题 模型 化 为 一 个 表面 匹配 问题 .如 这 里 所 概括 
的 。 而 山 , 他 们 用 动态 编程 方法 井 发 了 一 种 快速 搜索 算法 。Ohta 和 Kanade 的 原始 工作 只 考虑 
了 由 沿 重 直方 向 的 边缘 所 施加 的 约束 ，Falkenhagen 把 这 个 方案 扩展 到 考虑 更 多 的 二 维 约束 
[2]. 图 12.10(e) 示 出 了 用 这 个 方法 对 "人 "所 预测 的 右 图 像 。 


12.3.6 结构 和 运动 的 联合 估计 


上 述 讨论 集中 于 由 同时 获得 的 一 对 立体 视图 来 估计 位 差 函 数 。 巾 位 差 函 数 ,我 们 可 导出 
成 像 场 景 的 结构 ( 即 守 间 分 布 ), 如 12.2 节 中 所 描述 的 。 它 允许 我 们 重建 成 像 物体 的 三 维 表 
面 。 对 于 立体 序列 ,我 们 不 仪 对 给 定 帧 的 结构 估计 感 兴趣 ,也 对 帧 间 的 : 维 运动 估计 感 兴 趣 。 
最 具有 挑战 性 的 问题 是 联合 地 估计 结构 和 运动 。 
针对 这 个 问题 的 一 个 通常 的 方法 是 用 . : 维 网 格 { 也 称 为 线 框 ) 模 仿 成 像 物 体 的 表 商 。 这 
样 ,结构 和 运动 估计 问题 是 要 寻找 在 初始 帧 中 所 有 节点 的 二 维 坐 析 和 相继 帧 问 的 三 维 节 点 的 
位 称 。 注 意 ,三 维 网 个 将 在 左右 图 像 中 投影 成 二 维 网 格 ,如 图 12.12 所 示 。 为 了 确定 初始 的 三 
维 网 格 , 我 们 可 先 在 - “个 视图 中 构造 二 维 网 属 , 然 后 再 在 男 - -个 视图 中 寻找 对 应 节点 的 位 置 。 
这 可 用 12.3.4 节 中 所 描述 的 基于 网 格 的 位 差 估计 方法 实现 ,由 对 应 节点 之 间 的 位 差 ,我 们 吕 
确定 所 有 节点 的 二 维 位 置 。 为 了 使 生成 的 三 维 网 格 符合 实际 物体 的 表面 ,必须 使 初始 的 二 维 
网 格 比 配 于 物体 的 边 盎 , 且 每 个 元 素 应 该 对 应 于 一 个 平 岂 的 小 块 。 然 而 ,这 要 求知 道 物体 结 
构 。 内 此 , 重 上 改 的 足 基于 立体 视图 获得 好 的 物体 分 割 。 同 时 ,可 能 需要 一 个 选 代 过 程 ,每 欢 迁 
《基于 前 一 个 物体 结构 的 估计 ,从 一 个 修改 的 新 的 一 维 网 格 开始 。 为 了 请 定 二 维 节 点 的 位 移 ， 
我 们 可 以 纺 定 两 个 视图 中 的 二 维 节点 的 位 移 .通过 使 同 - -个 视图 的 黄 个 相 邻 帧 之 间 的 运动 补 
偿 斋 测 误差 为 最 小 ,以 及 使 相同 巾 时 的 两 个 视图 之 间 的 位 差 补 档 预测 误差 为 最 小 来 实现 。 结 构 
和 运动 人 计 中 的 二 要因 难 在 于 如 何 处 埋 遮挡 的 区 域 ,包括 那些 在 同一 个 帧 时 内 在 - -个 视图 中 看 
介 的 区 域 ,和 随 着 时 间 消失 或 新 出 现 的 区 域 。 关 于 这 个 识 器 的 研究 论文 , 见 参考 文献 [5,7,18]。 

































































图 12.12 。 维 表 面 风格 投影 到 左右 图 像 上 的 二 维 网 格 
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12.4 中 间 视 图 合成 





一 个 有 趣 的 立体 处 理 任务 是 由 给 定 的 视图 来 内 插 或 合成 中 间 视 图 一 一 例如 , 由 左右 视图 

















经 常 地 更 新 。 在 先进 的 立体 或 多 视 视频 编码 系统 中 也 需要 视 











生成 中 央视 图 。 这 在 虚拟 现实 显示 中 是 经 常 需要 的 ,这 时 所 显示 的 视图 必须 根据 用 户 的 视点 








pet 


合成 ,这 时 首先 由 参考 视图 全 











成 欲 编码 的 视 贸 ,然后 对 合成 成 差 图 像 进 行 编码 。 一 个 不 考虑 














如 果 由 中 央 到 左 视 
T: 




















性 内 插 ,由 左 、 右 视图 y (x) 和 Y ,(x) ,通过 下 式 生 成 内 插 的 中 
W Cx) = w(x) 8 (x) + w(x) V(X) 
的 基线 距离 是 D, ,而 到 右 视 图 的 基线 距离 是 D, , 则 按照 下 式 确定 加 权 














FP 央视 














we) = pp se (x) = 1 wl 
这 种 方法 尽管 简单 ,但 将 不 能 得 到 注意 的 结果 ,因为 在 不 同 视图 中 具有 相同 图 像 坐 标的 像素 对 


应 不 同 的 物体 点 ,它们 之 间 的 了 








F 均 将 产生 模糊 的 图 像 。 
图 12,13 给 出 了 更 适当 的 位 差 补偿 内 揪 。 设 da (x) Al d, (x) 分 别 表示 由 中 央 到 左 视 











到 右 视 图 的 位 差 场 。 内 插 的 中 央视 图 按照 下 式 确定 : 





W Cx) = w(x) W(x + dN)) + w(x) V (x + dy (x)) 
SFC T RE PAT ARK, MALE AAT 12.4.2). MRR AE 


中 可 见 , 那 么 另 一 个 视图 的 加 权 因 子 应 该 为 零 。 具 体 地 ， 


wx) = 


例如 ,如 果 成 像 物体 是 一 张 


们 只 能 佑 计 








EAE: 
( 右 ) 部 分 ,应 该 只 使 用 左 ( 右 ) 视 图 。 
以 上 描述 的 方法 假设 d(x) 和 de (x) 是 已 知 的 。 实 际 上 ,根据 给 定 的 左 











位 差 的 自然 视 
(x): 











合成 方法 是 线 





(12.4.1) 
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都 可 见 





可见 











Bp 当 x 在 两 个 视图 
1， Mx REZAR 
0， 当 x 只 在 右 视图 


可 见 

















6 么 对 于 脸 的 中 央 部 分 ,两 个 视图 都 将 用 于 内 插 。 对 于 
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(12.4.3) 
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像 和 右 图 像 ,我 








a, (x) = ae a) 


上 如 由 左 视图 到 右 视 图 的 位 差 (x)。 要 由 d, (x) 得 到 du(x) 和 d (RE 
简单 的 工作 。 注 意 ,通过 下 式 容易 内 插 出 由 左 视图 到 中 央视 图 的 位 差 场 : 


(12.4.5) 


但 这 不 允许 我 们 为 中 央视 图 的 每 个 像素 在 左 视图 中 找到 对 应 点 。 确 切 地 说 , 它 为 左 视图 中 的 








等 个 像素 确定 了 中 央视 图 中 的 对 应 点 。 一 般 地 ,会 存在 左 视图 中 术 包 含 的 像素 ,或 对 应 去 视 赂 





中 一 个 以 上 像素 的 像素 。 
如 果 di (x) 是 用 基于 

















容易 地 由 左 视图 和 右 视图 中 的 网 格 生成 中 











图 中 的 节点 位 置 x. EH 




















eo Da 
Xen = Dye D,“ *D, + Do 


格 的 方法 估计 的 , 则 这 个 问题 是 可 行 的 。 在 这 种 情况 下 ,可 以 很 
间 视图 的 网 格 , 如 图 12.14 所 示 。 具 体 地 说 ,中 央视 
左 视图 和 右 视 图 中 的 节点 位 置 x M x,, 用 下 式 生成 的 ， 


(12.4.6) 
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这 样 ,对 于 中 央视 图 的 一 个 z 素 的 每 个 像素 ,通过 使 用 元 素 的 形状 函数 ( 见 6.6 节 ) 的 节点 位 置 
内 搬 , 可 确定 它 在 左 ( 或 有 ) 视 图 中 对 忘 的 点 。 在 平行 成 像 几 何 情况 下 ,只 存在 水 平 位 差 ,问题 
就 更 为 简单 。 对 这 种 情况 的 清楚 描述 见 参考 文献 [21]。 图 12.15 给 出 了 用 这 种 方法 对 立体 对 
“A HARMA R. 


左 视图 内 搬 视 图 右 搞 图 


图 有 2.13 位 差 补偿 内 播 :出 左 视图 中 的 x+ dy (x) FL PR A x + d, (x) AR x 


NA 
A 


MAA 


g 





左 视图 ARRE 有 视图 


图 12.14 通过 对 左 , 右 视图 中 的 节点 位 置 进行 线性 内 搬 来 生成 中 央视 图 的 网 格 
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图 12.15 ”一 个 中 间 视 图 合成 的 例子 。 由 左右 图 像 来 内 插 中 央 图 像 。 该 结果 是 通过 用 基 
于 网 格 方法 估计 的 左右 视图 之 问 的 位 差 图 ,用 基于 网 格 的 位 差 补偿 内 捅 获得 





12.5 立体 序列 编码 


立体 和 多 视 序 列 ( 包 括 三 维 TV) 应 用 中 的 一 个 主要 办 难 是 立体 和 多 视 序列 的 数据 量 非常 
大 。 为 了 以 合理 的 代价 存储 或 传输 立体 序列 ,必须 实现 数据 的 实质 上 的 压缩 。 在 本 节 中 ,我 们 
给 出 为 立体 序列 开发 的 几 种 压缩 方案 。 


12.5.1 基于 块 的 编码 和 MPEG-2 的 多 视 类 


在 这 个 方法 中 ,编码 器 首先 用 单 视 视频 编码 算法 庄 缩 左 视图 序列 。 对 于 右 视图 序列 ,每 一 
帧 由 左 视图 序列 对 应 的 帧 基于 估计 的 位 差 场 进行 预测 ,并 且 对 位 差 场 和 预测 残 差 图 像 进行 纺 
码 。 位 差 估计 和 补偿 过 程 都 采用 基于 块 的 方法 ;也 就 是 说 ,对 于 右 祝 疼 中 的 每 个 图 像 块 ,它们 
在 左 视图 中 寻找 一 个 最 相似 的 天。 一 个 较 好 的 旋 法 是 根据 哪 一 个 给 出 较 小 的 预 浏 误差 ,在 相 
同时 间 的 不 同 视图 之 间 的 位 差 补偿 预测 与 相同 视图 的 不 同 帧 之 间 的 运动 补偿 预测 之 间 进 行 
切换 。 

这 种 方法 已 经 在 MPEG-2 标准 的 多 视 类 中 被 采用 [4], 它 可 用 该 标准 的 时 间 可 分 级 性 模式 
实现 。 如 在 13.5.3 节 中 所 讨论 的 {图 13.24) ,用 MPEC-2 的 时 间 可 分 级 性 ,把 序列 分 成 两 个 亚 
采样 帧 的 集 。 基 本 层 ( 比 如 ,由 偶 帧 组 成 ) 用 单 向 MCP 进行 编码 , 其 中 参考 帧 是 来 自前 面 编 码 
的 偶 巾 。 由 和 下 余 的 奇 帧 组 成 的 增强 层 用 双 往 MCP 进行 编码 , 一 个 参考 帧 来 自前 面 编码 的 奇 
帧 ,而 另 一 个 来 自 基 本 层 中 一 个 靠近 的 偶 帧 。 图 12.16 说 明了 时 间 可 分 级 性 如 何 应 用 于 一 对 
立体 视图 中 。 在 这 种 情况 下 , 堪 视 图 被 编码 为 基本 层 , 面 右 视 图 被 编码 为 增强 层 。 对 于 左 视 
图 ,图 像 用 1,B 或 P 模 式 进 行 编码 。 对 于 B 和 P 图 愧 ,用 于 预测 的 参考 帧 只 来 自 于 左 视图 。 对 
于 右 视图 ,图像 用 P 或 中 模式 进行 编码 ,在 了 模式 中 ,图 像 用 左 视 图 中 对 应 的 由 作 为 参考 帧 进 
行 预测 编码 Æ B 帧 模式 中 ,一 个 参考 帧 来 自 右 视图 中 前 面 的 一 帧 ,而 另 一 参考 帧 是 堪 视图 
中 对 应 的 慎 。 后 一 种 情况 所 用 的 运动 矢量 实际 上 是 位 差 矢量 ,并 且 预 测 过 程 是 位 差 补偿 预测 。 
我 们 记得 ,对 于 双向 预测 ,根据 哪 一 个 提供 最 佳 预测 ,可 以 使 用 来 自 参考 炭 的 预测 块 或 使 
月 一 者 的 平均 。 通 常 , 同 一 祝 图 内 的 相继 帧 之 间 的 相似 性 高 于 左右 视图 中 对 应 帧 之 间 的 相似 
性 。 基 于 块 的 位 差 模型 的 不 足 进一步 限制 了 用 DCP 可 获得 的 精度 。 由 于 这 些 因素 ,一 般 选 择 
MCP 而 不 选择 DCP, 使 得 多 视 类 的 总 体 性 能 只 稍微 优 于 同时 联播 ,在 同时 联播 中 每 个 视图 是 用 
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MPEG-2 主 类 单独 编码 的 [8]。 多 视 类 与 同时 联播 的 仿真 比较 结果 可 在 参考 文献 [13] 中 找到 。 
注意 ,对 于 同时 联播 和 MPEG-2 多 视 类 ,一 般 一 个 视图 的 编码 质量 大 大 低 于 另 一 个 参考 视图 的 
编码 质量 。 这 是 受到 这 一 事实 的 启发 :立体 序列 的 接收 质量 很 大 程度 上 是 由 一 个 具有 较 高 质 
量 的 视图 决定 的 ( 见 12.1.2 节 )。 





图 12.16 MPEC-2 的 多 视 类 


12.5.2 多 视 序列 的 不 完全 三 维 表示 


在 多 视 序列 中 ,同一 个 物体 区 域 经 常 是 在 多 个 视图 中 可 见 的 。 如 果 我 们 只 在 一 个 视图 (提供 
最 高 分 辩 率 表示 的 视图 ) 中 编码 该 区 域 的 纹理 图 和 该 视图 与 其 他 视图 之 间 的 位 差 信 息 , 那 么 我 们 
可 以 用 DCP 相当 好 地 重建 它 在 其 他 视图 中 的 图 像 。 对 于 那些 不 要 求 非常 高 质量 地 重建 每 个 视 
的 应 用 系统 ,不 需要 编码 预测 图 像 与 原始 图 像 之 间 的 残 差 。 代 蔡 分 别 编码 每 个 区 域 的 纹理 图 ， 
可 以 把 所 有 不 同 区 域 的 纹理 图 放 到 一 个 扩充 的 图 像 中 ,并 把 这 幅 图 像 作 为 单个 纹理 图 像 对 待 。 
这 个 扩充 的 纹理 图 具有 与 每 个 区 域 有 关 的 区 域 股 和 位 善信 息 ,组 成 了 由 Ohm 和 Miller[9,8] 提 出 
的 不 完全 的 三 维 (GD) 表 示 。 图 12.17 给 出 了 序列 “人 "的 13D 表示 的 例子 。 在 这 种 情况 下 ,左边 
和 右边 的 脸 纹理 是 分 别 由 左 视图 和 右 视图 获得 的 。 把 编码 原来 的 两 个 视图 换 成 编码 BD ER, 
这 样 可 带 来 比特 率 的 明显 节省 。 用 编码 的 位 差 信息 ,我们 也 可 以 内 插 中 间 视 图 。 
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图 12.17 序列 “人 "的 不 完 爹 三 维 表示 ;(a) 扩 充 的 纹理 表面,(b) 位 差 图 。 原 始 的 左右 图 像 见 图 12.15 
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12.5.3 混合 分 辩 率 编码 


如 12.1.2 节 中 所 述 , 可 以 相当 大 地 降低 两 个 图 像 中 任意 一 个 的 分 辩 率 (用 月 前 的 电视 标 
准 ,直到 接近 原始 图 像 截止 频率 的 一 半 ) , 当 图 像 短 时 间 显示 时 ,这 不 会 引起 清晰 度 的 主观 印象 
的 刺激 或 变 坏 [111 。 尖 于 HVS 的 这 个 不 对 称 性 质 ,没有 必要 为 立体 对 中 的 两 个 序列 提供 相 
同 的 空间 和 时 问 分 辩 率 。 刘 混合 分 辩 率 编 合 中 [12,1,15] ,一 个 序列 (例如 左 序列 ) 是 以 最 高 可 
达到 的 空间 和 时 间 分 辩 率 编码 的 ,而 另 . -个 序列 首先 在 空间 和 时 间 上 被 下 采样 ,然后 应 编 码 。 
已 经 发 现 [15] ,可 以 对 一 个 视图 在 水 平和 垂直 方向 者 进行 两 倍 的 下 采样 ,同时 不 会 引起 观看 者 
感觉 深度 能 力 的 下 降 。 


12.5.4 基于 物体 的 三 维 编码 


这 些 方 法 比 基 于 DCP 利 MCP 的 编码 器 又 前 进 了 -… 步 。 木 必 为 进行 MCP 和 DCP 导出 二 维 
运动 和 位 差 ,三维 结构 和 运动 参数 是 通过 立体 的 或 多 重 的 视图 估计 的 。 每 个 物体 的 结构 ,运动 
和 表面 纹理 (彩色 ) 被 编码 ,而 不 是 编码 各 个 图 像 帧 。 在 解码 器 中 ,基于 结构 、 运 动 和 纹理 信息 
合成 所 期 望 的 视图 。 这 样 的 方法 比 二 维 MCP/DCP 联合 的 方法 更 有 潜力 。 首 先 ,以 比 二 维 运动 
和 位 差 虽 直接 ,更 简单 的 形式 物理 地 约束 三 维 运动 和 结构 参数 ;适当 地 使 用 这 些 约束 将 导致 更 
精确 的 三 维 运动 和 结构 的 估计 。 事 实 上 上 ,精确 的 三 维 运动 估计 应 该 得 到 更 精确 的 二 维 运动 ,从 
而 可 降低 表示 每 个 视频 所 需要 的 比特 数 .其 次 ,用 从 立体 对 中 导出 的 三 维 信息 ,可 生成 任意 的 
中 间 视 网 。 这 个 特征 在 许多 应 用 系统 中 都 是 所 期 望 的 一 一例 如 庶 拟 CER Sa RY 
连续 视图 ,但 这 过 于 品 贵 而 难以 获取 或 传输 。 最 后 ,编码 的 三 维 信息 能 实现 成 像 物体 或 场景 的 
控制 (改变 视角 、 注 释 , 动 画 等 ) ,这 是 交互 式 多 媒体 通信 的 重要 特征 。 

这 种 编码 方案 的 一 般 结构 如 图 12.18 所 示 。 基 于 输入 的 立体 视图 ,编码 器 首先 进行 物体 
分 割 和 物体 级 的 运动 和 结构 估计 。 如 12.3.6 节 所 述 ,这 三 个 任务 是 相互 关联 的 , 一 般 利用 一 
个 适 代 程序 得 到 最 终 解 。 每 个 物体 是 由 线 框 描述 的 ,从 而 运动 和 结构 信息 可 由 初始 节点 位 置 
和 节点 位 移 矢量 撒 述 。 对 于 每 个 物体 ,参考 纹理 图 也 是 从 两 个 视图 中 邱 取 出 来 的 ,这 与 12.5.2 
节 描 述 的 BD 表示 -- 样 。 基 于 分 割 图 以 及 结构 和 运动 参数 ,我 们 便 可 通过 参考 纹理 图 合成 左 
右 视 岁 , 并 且 , 如 虹 需 要 的 话 ,可 以 编码 合成 的 残 差 图 像 。 除 了 使 用 由 给 定 视图 构造 的 参考 纹 
型 图 外 ,也 可 以 选择 输入 视图 中 的 -- 个 作为 参考 纹理 图 ,并 合成 男 一 个 视图 。 这 个 会 成 可 以 用 
参考 纹理 图 的 位 差 补偿 纹理 扭曲 实现 ( 见 12.4 节 )。 宕 要 编码 的 参数 包括 分 割 图 .结构 和 运动 
WE .参考 纹理 图 以 及 合成 残 差 图 像 。 类 似 的 方法 可 应 用 于 编码 多 视 序列 。 符合 这 个 一 般 结 
梅 的 编码 器 可 在 参考 文献 [ 18,21] 中 找到 。 

基于 物体 的 三 维 编码 器 的 成 功 关 键 取决 于 它 的 三 维 结构 和 运动 估计 的 精度 。 如 果 不 知 
道 在 成 像 场 景 中 有 什么 和 有 多 少 物体 ,试图 由 一 般 的 立体 序列 恢复 整个 三 维 信息 是 一 个 非常 
困难 的 工作 ,甚至 有 叶 是 不 可 能 的 。 尽管 对 这 个 问题 的 研究 已 经 付出 了 相当 大 的 努力 ,并 已 开 
发 了 许多 很 有 前 途 的 方法 ,但 现 有 的 解决 方案 在 它们 的 健壮 性 和 精度 上 仍 是 有 限 的 ,并 旦 需要 
强度 很 高 的 计算 。 由 于 有 这 些 问 题 ,基于 物体 的 三 维 编码 器 的 执行 仍 澳 要 用 韭 基 于 物体 的 编 
码 器 顺利 地 完成 。 
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图 12.18 基于 物体 的 一 般 体 视 序列 编码 结构 


12.5.5 基于 模型 的 三 维 编码 


上 述 讨论 试图 从 观察 到 的 立体 序列 自动 地 导出 场景 中 物体 的 三 维 结构 。 由 于 在 成 像 场景 
中 可 能 存在 非常 复杂 的 物体 成 分 ,所 以 这 是 个 非常 困难 的 问题 。 当 场景 中 只 有 少数 物体 且 物 
体 的 三 维 模型 符合 一 些 已 知 的 结构 时 ,困难 要 小 一 些 。 在 这 种 情况 下 ,可 以 为 每 个 潜在 的 物体 


























构建 通用 的 模型 。 例 如 ,在 电视 会 议 应 用 系统 中 ,成 像 的 场景 一 般 由 一 个 或 几 个 头 肩 型 的 物体 
组 成 。 编 码 器 可 使 用 预先 设计 的 通用 的 脸 和 身体 模型 。 结 构 估 计 问 题 就 简化 为 估计 通用 模型 
需要 修改 之 处 ,以 便 与 采集 的 图 像 相 匹 配 。 一 旦 通用 模型 与 成 像 的 物体 相 适 应 , 则 只 有 运动 信 
息 ( 节 点 运动 ) 必 须 被 估计 和 编码 。 这 种 方法 类 似 于 前 面 第 10 章 中 所 讨论 的 基于 知识 的 编码 。 
与 为 单 视 序列 所 开发 的 方法 比较 ,立体 或 更 多 视图 的 可 用 性 有 助 于 提高 模型 自 适应 精度 。 


12.6 小 结 

















深度 感觉 (12.1 节 ) 
© 人 类 的 深度 感觉 是 通过 两 只 眼睛 将 具有 位 移 的 视图 融合 在 一 起 实现 的 ,这 种 能 力 称 为 


立体 感 。 





























© 眼睛 对 空间 和 时 间 的 深度 变化 不 如 对 比 度 变 化 敏感 。 因 此 ,每 个 视图 以 标准 单 视 序列 
的 分 辩 率 采集 并 显示 的 一 个 立体 系统 ,可 正确 地 显示 深度 。 
日 事实 上 ,两 个 视图 不 必用 同样 高 的 空间 和 时 间 分 辩 率 显示 。 一 个 立 体 序列 所 感觉 的 质 


BRAT 





























中 较 好 的 视图 。 在 立体 序列 正 缩 中 已 经 利用 了 这 个 性 质 。 


立体 成 像 原理 (12.2 $) 
e 对 于 立体 成 像 ,一 个 三 维 点 在 两 个 不 同 视图 中 的 像 是 相互 位 移 的 , 正 是 这 两 个 位 置 之 间 
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的 位 差 使 得 能 够 恢复 该 三 维 点 的 深度 信息 。 

© 深度 与 位 差 之 间 最 一 般 的 关系 由 公式 (12.2.5) 给 出 。 对 于 最 流行 的 平行 摄像 机 配置 ， 
它 简 化 为 著名 的 位 差 与 深度 之 间 的 反比 关系 (公式 (12.2.8))}。 对 于 任意 的 摄像 机 配 
和 置 ,同一 个 物体 点 的 左右 图 像 位 置 之 间 的 美 系 电 外 极 几 何 所 描述 (图 12.7; 公式 
(12.2.13))。 

















位 差 估计 (12.3 节 } 

© 位 差 估计 类 似 于 运动 估计 (由 于 必须 在 两 幅 不 同 的 图 像 中 寻找 对 应 的 点 ), 因 此 可 用 类 
似 的 方法 实现 ,包括 基于 块 的 方法 和 基于 网 格 的 方法 。 

e 与 运动 估计 相 比 较 , 位 差 估计 可 以 借助 于 施加 物理 约束 。 最 重要 的 是 外 极 约 东 ,这 个 约 
柬 是 ,对 于 右 图 像 中 的 任意 点 , 它 在 左 图 像 中 的 对应 点 必须 落 在 外 极 线 上 。 对 于 平行 摄 
像 机 设置 ,这 意味 着 两 幅 图 像 中 的 对 应 点 是 在 同一 条 水 平 线 上 。 

© 位 差 估计 是 由 立体 序列 恢复 成 像 物 体 的 三 维 结构 和 运动 的 基本 步骤 。 为 了 实现 这 一 目 
标 ,位 差 估计 必须 与 物体 分 割 ,使 用 线 框 的 三 维 模型 化 和 遮挡 区 域 的 删除 与 处 理 等 工作 
联合 进行 。 




































































中 间 视 图 合成 (12.4 节 ) 


e 在 虚拟 现实 显示 中 需要 视图 合成 。 在 先进 的 多 视 序列 编码 系统 中 , 它 也 是 一 个 很 重要 
的 部 分 。 

© 需 迷 位 差 补偿 内 插 以 获得 满意 的 结果 。 

立体 和 多 视 序列 编码 (12.5 节 } 

9 一 般 有 两 种 类 型 的 方法 。 第 一 种 是 基于 波形 的 : 它 联合 位 差 补偿 预测 和 运动 补偿 预测 ， 
对 预测 残 差 图 像 以 及 位 差 和 运动 矢量 进行 编码 。 

© 第 一 种 是 基于 物体 的 : 它 试图 恢复 成 像 物体 的 三 维 结构 和 运动 ,并 直接 编码 其 信息 。 对 
于 结构 简单 的 场景 ,第 二 种 方法 具有 达到 非常 高 压缩 比 的 潜在 能 力 。 它 也 易于 在 解码 
器 中 合成 任意 的 中 闻 视 图 。 

© 在 12.5.4 节 和 12.5.5 书 中 所 述 的 基于 物体 的 和 基于 模型 的 方法 ,可 认为 是 第 10 章 中 
所 讨论 的 为 编码 单 视 序列 而 开发 的 基于 物体 和 基于 知识 的 编码 器 的 扩展 。 





















































12.7 习题 


12.1 立体 成 像 的 平行 摄像 机 配置 与 会 聚 摄像 机 配置 的 优 缺 点 各 是 什么 ? 

12.2 导出 会 聚 摄像 机 配置 中 的 水 平和 垂直 位 差 值 d.(%,,y,) ,d(x,,y,)。 说 明 对 于 
兴 =0, 了 =0, 垂 直 位 差 为 零 。 司 时 导出 由 d, (x,y), d, Crs y, ) 确 定 三 维 位 置 的 方 
法 。 

12.3 ”对 于 (a) 平 行 摄像 机 配置 和 (b) 会 聚 摄像 机 配置 ,导出 基本 和 矩阵 [F]。 

12.4 假设 是 一 个 半 行 摄影 机 配置 ,对 于 弯曲 的 表面 2= aX + bY + cf + d, CARRE 
参数 化 的 形式 是 什么 ? 
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12.5 ” 当 黄 台 平 行 的 摄像 机 之 间 的 基线 较 大 时 ,水 平 位 差 很 大 。 在 这 种 情况 下 ,最 好 在 应 
用 基于 块 的 或 基于 网 格 的 位 凑 信 计 前 ,首先 估计 全 局 的 水 于 位 差 值 。 这 个 全 局 位 
差 可 通过 结 找 移 位 后 产生 最 小 误差 的 两 幅 图 像 之 间 的 全 局 水 平 位 移 来 求 得 。 与 出 
一 个 估计 立体 对 之 间 全 局 位 差 的 程序 
12.6 在 一 个 平行 成 像 几何 情况 下 (只 须 搜 索 水 平 位 差 ) 实 现 (用 C 或 MATLAB) 位 益 估计 
的 分 层 抉 匹配 算法 。 评 价 它 在 立体 图 像 对 上 的 性 能 。 应 该 首先 估计 全 局 位 差 , 然 
后 对 全 局 位 差 补偿 后 的 图 像 应 用 块 匹 本 算法 。 
12.7 在 平行 成 像 几 何 情况 下 实现 位 莽 估 计 的 基于 网 格 的 方法 。 为 简化 起 多 ,在 基准 视 
图 上 采用 规则 的 正方 形 网 格 。 对 二 相同 的 立体 对 ,把 它 的 性 能 与 亿 丐 配 算法 进行 
上 较 。 
12.8 实现 在 参 痢 文献 [10] 中 所 描述 的 位 差 估计 的 动态 编程 方案 。 评 价 它 在 立体 图 像 对 
土 的 性 能 。 把 它 的 性 能 与 块 严 配 算法 以 及 基于 网 格 的 方法 进行 比较 。 
12.9 在 出 平行 摄像 机 获得 的 立体 对 的 视图 之 加 生成 一 个 中 间 视 图 。 比 较 丙 种 方法 : 线 
性 内 插 和 采用 基于 网 格 方法 的 位 差 补偿 内 插 (12.4 节 )。 理 想 情况 下 ,应 该 用 基于 
格 的 方法 估计 位 差 值 。 如 果 选 择 用 较 简 单 的 基 于 块 的 方法 ,那么 可 假设 为 每 个 
央 找 到 的 位 差 是 块 中 心 的 位 差 ,并 日 所 有 的 块 中 心 是 参考 视 疼 的 网 格 中 的 篆 点 。 
12.10 用 基于 块 的 位 差 补偿 实现 “个 立体 图 像 编 码 器 。 用 DCT 方法 (9.1.7 节 ) 编 码 一 幅 
像 ( 参 考 视图 )。 对 十 另 一 幅 图 像 . 对 于 每 个 块 ,用 基于 块 的 位 差 求 它 的 预测 , 然 
后 用 DCT Wik SiR EER 
12,11 用 基 于 块 的 位 盖 补 偿 利 运动 补偿 实现 一 个 立体 视频 编码 器 。 用 混合 编码 方法 
(9.3.1 节 ) 编 码 一 个 视图 (参考 视图 )}。 为 简化 起 见 ,只 用 单 向 颜 测 。 对 于 另 一 个 视 
图 ,对 于 帧 中 的 每 个 块 ,用 由 这 个 视图 中 的 前 - 帧 进行 的 运动 补偿 和 由 参考 视图 中 
的 同一 帧 进行 的 位 差 补 偿 来 估计 它 。 可 以 用 两 种 预测 的 平均 或 用 其 中 的 一 个 预 
测 , 这 取决 二 预测 误 养 。 然 后 用 DCT 方法 编码 预测 误差 。 
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第 13 章 ”视频 压缩 标准 


数字 视频 通信 是 一 个 复杂 的 .计算 强度 人 的 过 程 ,要 求 许多 人 接收 来 自 不 同 信 源 的 视频 信 
o 目前 主要 存在 三 类 用 于 数字 视频 道 信 的 设备 : 

数字 电视 机 或 机 顶 盒 , 它 主要 是 为 接收 来 自 不 同 内 容 提供 商 的 视频 信号 而 设计 的 。 这 
些 设备 依赖 单一 固定 的 视频 解 公 算法 ,这 种 算法 是 以 硬件 ,硬件 与 可 编程 的 精简 指令 集 
计算 机 (FISC) 处 再 器 的 组 合 或 数字 仿 导 处 理 回 (DSP) 实 现 的 。 月 前 ,-- 日 硬件 为 用 户 开 
RAT INA 上载 新 的 算法 。 

o 视频 电 活 一 般 在 DSP 上 实现 ,对 视频 编码 和 解码 算法 的 某 些 计算 复杂 度 高 的 部 分 ( 例 
如 ,DCT 和 运动 估计 ) 用 硬件 加 速 。 通 常 ,在 特殊 的 视频 电话 中 使 用 的 算法 集 是 不 能 瞧 
换 的 。 

se 个 人 计算 机 是 数字 视频 通信 最 灵活 和 最 曲 贵 的 平台 。 尽 管 具有 高 级 奔腾 三 处 理 器 的 
PC BLABARES DYD, 但 一 般 用 操作 系统 顶 先 安装 软件 以 避免 硬件 和 虐 动 器 问题 ， 流 视频 
的 视频 解码 咒 叮 通过 自动 软件 下 载 和 安装 进行 更 新 ,如 商业 软件 Real Player, Windows 
Media Player, Apple QuickTime 利 Microsoft Netmeeting, 等 等 


数字 视频 通信 标准 主要 是 为 视频 电视 和 视频 电话 开发 的 ,从 而 使 业界 能 向 用 户 提供 合理 
价位 的 有 效 带 宽 终 端 。13.1 节 描 述 了 标准 化 组 织 .兼容 性 含义 和 视频 编码 标准 应 用 系统 。 我 
们 以 TU 交互 式 视频 通信 的 视频 编码 标准 H.261 F H. 263 (13.2 闻 ) 开 始 实际 标准 的 描述 。 在 
13.3 节 中 ,我 们 给 出 H,323 和 H,324 标准 ,它们 定义 了 音 视 频 通 信 的 多 媒体 终端 。ISO 下 属 的 
运动 峰 像 专家 组 (MPEC) 定 义 了 娱乐 和 数字 电视 的 MPEG-1(13.4 节 ) 和 MPEC-2(13.5 节 ) 标 准 。 
MPEG-4(13.6 节 ) 是 第 一 个 个 仅 对 音频 和 视频 通信 而 且 对 用 于 娱乐 和 交 开 式 多 媒体 业务 的 图 
堪 进 行 慰 准 化 的 国际 标准 。 所 有 的 标准 帮 描 述 比特 流 的 语法 和 话 义 。13.7 节 给 出 了 一 个 被 
日 .261 11.263 和 MPEC-1 MPEG-2 和 MPRG-4 所 采用 的 比特 流 结构 的 概述 。 最 后 ,我 们 简单 地 
介绍 正在 进行 的 MPEG-7 标准 化 工作 , 它 意 在 对 描述 音 视频 文件 内 容 的 接口 进行 标准 化 。 


ag 











13.1 标准 化 


开发 - -种 国际 标准 需要 来 自 不 同 同 家 的 许多 同行 的 合作 ,并 需 此 一 个 能 支持 标准 化 过 程 
和 实施 标准 的 组 织 ,在 13.1.1 节 中 ,我 们 将 介绍 如 ITU 和 ISO 这 样 的 组 织 。 在 13.1.2 节 中 ， 
定义 兼容 性 的 会 义 。13.1.3 节 简 间 叙 述 标准 化 组 织 的 工作 。 在 13.1.4 节 中 , 列 出 了 视频 通信 
的 应 用 。 


13.1.1 标准 化 组 织 


如 上 崎 我们 想 要 不 辐 广 家 生产 的 各 种 终端 交换 或 接收 米 自 公共 信 源 (如 电视 广播 介 ) 的 信 
总 ,就 此 要 制定 一 种 标准 。 标 准 化 组 织 面向 电信 行业 创建 了 ITU( 怀 际 电信 联盟 ), 商 向 贸易 产 
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业 创建 了 1S0( 国 际 标准 化 组 织 )。 

ITU 电信 行业 在 设立 国际 标准 方面 已 有 很 长 的 认 史 [7]。 最 初 是 19 世纪 的 电子 电报 , 当 
时 电报 线路 不 是 跨国 鼻 的 ,因为 每 个 国家 使 用 不 同 的 系统 ,并 月 每 个 国家 有 它们 自己 的 电报 全 
以 保护 它 的 军事 和 政治 消息 的 秘密 。 消 息 在 通过 邻 国 的 电报 网 络 传输 之 前 ,必须 在 边境 转录 、 
翻译 和 移交 。1865 年 5 月 签 加 了 第 一 份 国际 电报 协定 , 它 协调 了 当时 正在 使 用 的 儿 种 不 同 的 
系统 ,这 一 事件 标志 着 国际 电信 联盟 (TTU:www .im i) 的 诞生 。 

随 着 电话 的 发 明 以 及 随 之 而 来 的 电 活 的 推广 ,电信 联盟 在 1885 年 开始 起 草 电 话 国际 规 
则 。1906 年 签署 了 第 一 个 国际 无 线 电 电报 协定 。 随 后 ,成 立 了 儿 个 建立 国际 标准 的 委员 会 ， 
包括 1924 年 成 立 的 国际 电话 咨询 委员 会 (CCIF) ,1925 年 成 立 的 国际 电报 咨询 委员 会 (CCIT)， 
以 及 1927 年 成 立 的 国际 无 线 电 咨询 委员 会 (CCIR)。1927 年 电报 联盟 把 不 同 频段 分 配给 当时 
存在 的 各 种 无 线 电 业 务 。 在 1934 年 ,1865 年 成 立 的 国际 电报 大 会 和 1906 年 成 立 的 国际 无 线 
电 电 报 大 会 合并 为 TU。1956 年 , CCIT 和 CCF 合并 ,创建 了 国际 电话 和 电报 咨询 委员 会 
(CCITT) 。1989 年 CCITT 发 布 了 第 一 个 数字 视频 编码 标准 :CCITT 建议 H.261[41], 这 个 标准 今 
大 仍 是 适用 的 。1992 年 ,TU 进行 了 白芷 改造 ,重新 命名 COR 为 ITU-R, 命 名 CCITT 为 ITU-T。 
MATI CCITT 的 标准 现在 称 为 ITU-T 建议 (例如 ,CCITT H.261 现在 称 为 ITU-T H.261)。 

图 9.1 直击 了 MU 的 组 织 结 构 .详细 说 明了 与 数字 视频 通信 有 关 的 部 分 。ITU-T 由 研究 
组 组 成 ,研究 组 16( SG16) 负 责 多 媒体 。SG16 把 它 的 上 作 分 为 不 同 的 工作 组 (WP) ,每 个 工作 组 
处 理 几 个 议题 。 SG16 在 2001 年 的 上 作 议 题 是 议题 15 (先进 视频 编码 ) 和 议题 19 (对 现 有 比特 
率 低 于 16 kbps 的 了 IU- 个 语音 编码 标准 的 扩展 ), 议 题 15 发 展 了 视频 编码 祭 准 ITU-R 建议 
H.261 和 11.263[50], 议 题 19 发 展 了 诸 音 编码 标准 ,如 TTU-R 建议 G.711[36],G.722[37] 以 及 
G.728[39]。 议 题 导 倾 向 于 每 则 年 灾 一 次 。 
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图 13.1 NU 的 组 织 以 及 它 与 数字 视频 通信 有 关 的 小 组 。 工 作 组 被 组 织 到 定义 标准 的 议题 中 














MU 是 一 个 国际 组 织 ,通过 由 它 的 成 员 国 签 辟 的 条 约 建 立 。 成 员 国 相对 于 它们 的 月 主权 
考虑 TU 的 规定 。 相 应 地 ,TIrU 的 任何 建议 ( 即 标准 ) 都 必须 得 到 成 员 国 的 一 致 同意 。 因 此 ， 
ITU 标准 化 过 程 时 常 不 能 跟 上 现代 技术 的 发 展 。 有 时 , 当 不 能 达成 -- 致 的 决议 时 ,TIU 就 推荐 
地 区 标准 (如 在 美国 和 欧洲 分 别 用 7 bit 和 8 bit 表示 数字 语 首 ) 、 色 移动 电话 被 关注 时 , TTU 并 
没有 起 到 领导 的 作用 。 在 美国 甚至 没有 国家 移动 电话 标准 ,使 得 每 个 经 营 者 可 以 自 由 地 选择 
他 们 自己 喜欢 的 标准 。 这 与 网 洲 所 采 到 的 方法 形成 对 比 ,在 欧洲 GSM 标准 已 经 获得 成 功 ,并 
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扩展 到 尼 界 各 地 ,包括 美国 ,通过 UMTS (所 请 第 二 代 移 动 标准 ),mU -了 正 重 新 扮演 原来 的 














SRB SLE METAS AE 


SO ”建立 国际 标准 的 需求 狂 养 贸易 的 发 展 而 发 展 L[7] .国际 电工 委员 会 (IEC) 成 立 于 
1906 年 ,为 了 淮 备 并 发 布 所 有 电气 .电子 以 及 相关 技术 的 国际 标准 。EEC 日 前 负责 如 “接收 
”音频 和 视频 记录 系统 以 及 月 前 都 败类 于 TC 100( 音 频 .视频 和 多 媒体 系统 和 设备 ) 的 音 视频 
设备 这 样 些 道 信 工具 的 标准 。 其 他 领域 (特别 是 机 械 工程 ) 的 国际 标准 化 是 由 建 于 1926 年 的 
国家 标准 化 协会 国际 联盟 (ISA) 关 注 的 、ISA 的 活动 于 1942 年 停止 。 但 是 在 1947 年 一 个 新 的 称 

















为 国际 标准 化 组 织 (JSO;www.iso.ch) 的 国际 组 织 半 始 工 作 , 声 称 其 口 标 是 “要 推动 上 业 标准 的 国 


























REBAR- *"。 所 有 与 计算 机 相关 的 活动 日 前 都 由 关于 信息 技术 的 ISO/IEC 联合 技术 委员 会 1 
(JTC ]) 负 责 。 这 个 委员 会 规模 已 很 大 ;大 约 30% 的 ISO 和 IEC 标准 工作 都 在 ITC 1 中 完成 。 


分 委员 会 SC 24( 计 算 机 图 撒 和 





图 像 处 理 ) 和 SC 29( 音 频 、 图 片 .多 媒体 和 超 媒 体 信息 编码 ) 





是 与 多 媒体 通信 有关 的 。SC 24 定义 计算 机 图 形 标 准 ,例如 VRML, M SC 29 开发 了 众所周知 的 
首 视 频 通 信 标 准 MPEG-1, MPEG-2 和 MPEG-4( 图 13.2)。 这 个 标准 是 在 来 自 工业 .研究 院 和 大 


学 的 200 到 400 名 代 故 参加 的 会 议 上 制定 的 。 
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图 13.2 音 视频 通信 标准 如 MPEG-1,MPEG-2 和 MPEG-4 是 由 ISO/ 
IECJIC1 下 属 的 第 29 分 委员 会 的 第 11.1. 作 给 制订 的 


1947 年 以 来 ,TS0 已 成 为 联合 国 














组 织 。 与 ITU 类 似 ,为 公布 一 个 慰 


的 一 个 代理 机 构 ,TSO 和 LEC 部 是 非 政 府 的 非 赢 利 性 质 的 
,JS0 需要 一 致 同意 。IS0 有 时 也 不 能 建立 真正 的 国际 标 


准 ,如 在 数字 电视 方面 所 见 到 的 。 尽 管 相同 的 视频 解码 (MPEG-2 视频 ) 在 全 球 广泛 使 用 ,然而 








音频 去 示 在 美国 和 欧洲 是 不 同 的 。 
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ISO 和 ITU 都 一 直 在 与 工业 竞争 。 尽 管 TSO 和 TTU 在 定义 广泛 应 用 的 音频 和 视频 编码 标 
准 方面 是 很 成 功 的 ,但 在 定义 因特网 上 多 媒体 信号 传输 方面 却 不 太 成 功 。 这 方面 目前 由 内 特 








网 工程 任务 组 (IETF; www.ietf.org) 负 责 ; ETF 是 一 个 大 而 开放 的 网 络 设计 者 .经 营 者 .厂商 以 
及 涉及 因特网 结构 发 展 和 平稳 送行 的 研究 人 员 的 国际 团体 。IETF 向 任何 有 兴趣 的 个 休 正 放 。 
其 他 的 实际 上 -的 标准 (例如 JAVA) 都 下 由 一 个 或 儿 个 公司 制定 的 ,因此 限制 了 局 外 和 后 发 企业 























进入 该 技术 。 
13.1.2 对 成 功 标准 的 要 求 
国际 标准 的 开发 允许 由 不 同 厂商 提供 的 通信 设备 相 扎 配合 工作 。 因 此 ,下 面 这 些 复 求 使 


得 音 视 频 通 信 设 备 在 市 场 上 能 成 功 地 推广 。 
- 创新 :为 了 使 -个 标准 能 与 其 他 已 被 采用 或 已 被 广泛 接受 的 | 业 祭 准 相 区 别 , 它 必须 


N 


w 


a 


a 











提供 相当 数量 的 创新 。 对 视频 编码 来 说 ,创新 就 意味 着 该 标准 提供 新 的 功能 ,例如 广 
播 质 量 的 隔行 站 | 描 数 学 视频 .CD - ROM 视频 或 改善 的 压缩 。 如 果 一 个 新 的 标准 仅 有 
的 特点 是 较 好 的 压缩 ,那么 在 它 的 引入 取得 商业 意义 之 前 ,这 个 标准 至 少 应 该 对 用 户 
和 非 专家 提供 一 个 可 见 的 改善 。 这 个 改善 通常 解释 为 在 一 般 可 接受 的 图 像 质 量 水 平 
上 ,上 压缩 视频 有 3dB PSNR 增益 。 























- 欧 争 :标准 不 应 该 阻止 制造 商 之 间 的 竞争 。 因 此 ,标准 的 规范 必须 对 任何 人 都 是 开放 





的 和 可 利用 的 。 免 费 的 编 解码 软件 也 有 助 于 促进 一 个 标准 。 而 且 ,标准 应 该 只 定义 比 
特 流 的 语法 和 请 义 , 即 标准 定义 解码 器 如 何 工 作 。 比 特 流 生成 不 进行 标准 化 。 尽 管 比 
特 流 语法 和 语义 的 开发 需要 编码 器 和 解码 器 ,但 标准 不 定义 编码 器 。 央 此 ,依从 标准 
的 终端 的 制造 商 可 以 不 只 在 价格 上 ,也 可 以 在 附加 性 能 上 进行 竞争 ,例如 解码 媒体 的 
后 处 理 以 及 更 重 紫 的 编码 器 性 能 。 在 视频 编码 中 ,性 能 的 主要 区 别 来 自 于 特殊 的 运动 
估计 场景 变化 处 理 . 码 率 控制 以 及 最 优 比 特 分 配 。 











: 独立 于 传输 和 存储 介质 :一 个 内 容 供应 商 应 该 能 独立 于 网 络 或 存储 介质 数字 地 传输 或 











存储 编码 的 内 容 。 这 种 要 求 的 结果 是 ,音频 和 视频 标准 用 于 编码 音 视频 信息 ,然后 系 
统 标准 用 于 把 音频 和 视频 比特 流 格式 化 成 一 种 适合 于 所 选择 网 络 或 存储 介质 的 格式 。 
系统 标准 规定 了 打包 、 复 用 以 及 传送 音频 和 视频 比特 流 的 包头 语法 。 传 输 介质 和 媒体 
编码 的 分 离 通常 对 特定 的 应 用 系统 造成 额外 开销 。 





























«AURA: 一 个 新 的 标准 应 该 能 理解 先前 标准 的 比特 流 ,例如 ,一 个 新 的 视频 编码 


标准 ,如 H.263[50] ,应 该 能 解码 按照 以 前 的 视频 编码 标准 .261[41] 编 码 的 比特 流 。 
向 前 兼容 性 确保 新 产品 能 逐渐 进 和 市场 。 只 有 当 依从 最 新 标准 的 终端 能 够 通信 时 ,最 
新 标准 的 新 特性 才 会 被 采用 。 否 则 ,终端 按照 以 前 的 标准 相互 配合 工作 。 


向 后 兼容 性 ;如 果 旧 标准 能 解码 新 标准 的 比特 流 , 则 新 标准 是 对 旧 标 准 向 后 兼容 的 。 


一 个 非常 重要 的 向 后 兼容 标准 是 模拟 彩色 电视 的 引 人 。 黑 白 接 收 机 能 够 接收 彩色 电 
视 信号 并 能 显示 信号 的 一 个 稍微 降 质 的 黑白 版 本 。 今 天 的 数字 视频 标准 的 向 后 兼容 
性 可 以 通过 定义 比特 流 中 解码 器 能 忽略 的 保留 比特 实现 。 新 标准 可 利用 吧 标 准 的 这 
些 保留 比特 传输 额外 的 信息 。 这 样 , 昌 的 终端 将 能 够 按照 新 标准 解码 比特 流 。 而 且 ， 
他 们 知道 比特 流 中 那些 符合 旧 标 准 的 部 分 。 向 后 兼容 性 对 新 标准 能 够 达到 的 性 能 改 
善 可 能 会 施加 苛刻 的 限制 。 因 此 ,在 新 标准 中 不 一 定 实现 癌 后 兼容 性 。 
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6. 向 上 兼容 性 :一 种 新 的 接收 机 应 该 能 够 解码 为 前 一 代 或 绞 便 宜 的 一 代 相 似 接 收 机 所 制 
定 的 比特 流 。 如 果 现 存 的 标准 被 扩展 ,同上 兼容 性 是 重要 的 。 一 种 新 的 HDTV 机 应 该 
能 够 接收 标准 清晰 度 的 电视 信号 ,因为 这 两 种 接收 机 部 采用 相同 的 MPEG-2 标准 1 19]。 

7. 向 下 兼容 性 :一 种 旧 的 接收 朴 能 够 接收 并 解码 新 - - 代 接 收 机 的 比特 流 。 如 果 现 在 的 标 
准 被 扩展 ,向 下 兼容 性 是 重要 的 。 这 可 以 道 过 从 解码 部 分 比特 流 实现 ,如 果 新 的 比特 
流 是 可 分 线 的 (第 生 章 ), 这 嘴 窑 易 做 到 的 。 

显然 ,为 了 标准 的 广泛 采纳 ,不 是 以 上 所 有 的 紫 求 都 是 重 归 的 。 我 们 认为 重要 性 依次 为 创 

新 .竞争 以 及 向 前 兼容 。 对 于 像 电 视 机 硕 合 或 移动 电话 这 样 的 设备 ,兼容 性 是 最 重要 的 ,内 为 
它们 不 易 升 级 。 然 而 ,当今 出 现 的 任何 多 媒体 PC 机 都 安装 了 十 个 以 上 的 视频 编 解 但 软件 ,对 
丁 这 类 终端 ,视频 和 音频 编码 标准 的 兼容 性 就 噬 得 不 太 重 要 。， 


13.1.3 标准 的 发 展 过 程 


视频 编码 标准 的 发 展 分 为 一 个 阶段 :竞争 .集中 和 验证 。 图 13.3 示 出 了 视频 编码 标准 
于 .261[41] 的 发 展 过 程 。 竞 争 阶段 始 上 5984 年 ， 标 准 于 1990 年 12 月 发 布 ,于 1993 年 修订 ， 
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图 13.3 H.26) 祭 准 化 过 程 概述 起 初 , 目 标 是 为 码 率 为 n x 384 kbps 和 m x 64 kbps 
的 襄 频 编码 制定 丙种 标准 ， 最 后 ITU 决定 了 一 -个 码 率 为 px 04 kbps 的 标准 


在 竞争 阶段 ,定义 了 标准 的 应 用 范围 及 需求 。 进一步, 专家 聚 在 一 起 证 明 他 们 的 最 好 算 
法 。 通常 ，- 旦 定义 了 需求 ,标准 化 组 织 就 发 出 一 个 征求 建议 通知 ,以 使 征求 整个 社会 的 进入 。 
这 个 阶段 的 特点 是 独立 地 进行 竞争 性 的 实验 。 

集中 阶段 的 日 的 是 合作 实验 以 达成 编码 方法 的 一 致 。 这 个 过 程 由 彻底 评价 对 该 标准 的 建 
议 开始 。 当 对 标准 的 第 一 个 公共 慌 架 达成 一 致 时 , 攻 虑 如 编 伺 效率 、 主 观 质量 .实现 复杂 度 以 
及 兼容 性 等 问题 。 在 不 同 的 实验 室 实 现 这 个 框架 ,并 抽 精 炼 其 描述 , ES AS oe CLL SA 
结果 。 这 个 框架 在 不 同 的 标准 中 有 不 同 的 名 称 ， 如 H261 的 参考 模型 (RM) .H.263 的 近 端 测 
试 模 横 (TMN) ,MPEG- 的 模拟 模型 (SM) .MPECG-2 的 测试 模型 CTM) .MPRG-4 的 验证 模型 (VM) 
以 及 1.261, 的 远 端 测试 模型 (TML)。 第 -个 框架 版 本 实现 后 ,研究 人 员 提 出 收 进 意见 ,例如 算 
法 的 新 部 分 ,或 者 已 有 部 分 的 更 好 的 参数 。 这 此 部 相对 于 当前 的 框 梨 进行 评价 。 取 得 如 著 改 
进 的 建议 被 包括 在 下 一 个 框架 版 本 中 ,以 作为 进一步 改进 的 新 参考 反复 进行 这 样 的 过 程 直 
到 达到 期 望 的 任 能 水 平 。 

在 验证 阶段 ,检查 说 明 书 是否 有 差错 和 歧义 。 生 成 一 致 性 比 待 流 和 正确 解 妈 的 视频 序列 。 
会 从 标准 的 解码 器 必须 把 等 一 个 一 致 性 比特 流 解码 成 正确 的 视频 序列 。 
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H.261 的 标准 化 过 程 可 以 作为 一 个 典型 的 例子 (图 13.3)， 在 1985 年 ,最 初 的 日 的 是 紧 天 
发 一 种 比特 率 在 384 ~ 1920 kbps 之 问 的 视频 编码 标准 。 出 于 ISDN 电话 线路 的 使 用 ,两 年 后 和 
始 了 别 一 种 64 ~ 128 kbps 视频 编码 的 标准 化 过 程 。1988 年 ,两 个 标准 化 小 组 认识 到 可 用 … 种 
算法 进行 64 ~ E920 kbps 的 视频 编码 。RM 6 是 第 一 个 获 阑 这 个 比特 率 范 围 的 参考 模型 。 技 术 
结束 于 1989 年 ,一 年 后 ,ITU 正式 采纳 了 H.261- 


13.1.4 现代 视频 编码 标准 的 应 用 


正如 已 提 到 的 ,存在 儿 个 主要 的 视频 编码 方面 的 积极 性 ,它们 导致 了 用 于 不 同 应 用 系统 的 
一 系列 视频 标准 的 出 现 [12] 。 
© 视频 电视 会 议 的 视频 编码 导 竹 了 用 于 ISDN 视频 会 议 的 ITU 标准 H.261[41] ,用 于 在 模 
拟 电 话 线 略 传输 视频 会 议和 连接 到 因特网 的 桌面 和 移动 终端 的 H.263 | 50] ,以 及 用 于 
ATM/ 宽 带 视频 会 议 的 日 .262/MPEG-2 视频 [43,17]。 
o 用 于 在 CD-ROM 上 存储 电 义 以 及 其 他 消费 视频 应 用 系统 小 的 视频 编码 , 把 大 约 
-2 Mbps 分 给 视频 编码 ,256 kbps 分 给 音频 编码 ,导致 了 最 初 的 ISO MPEC-1 标准 [16]。 
如 今 ,MPEG-1 用 于 CD REL OK 机 .一些 数字 便携 式 摄像 机 和 因特网 上 的 消费 视频 。- 一 
些 数字 卫星 在 MPEG-2 发 布 前 用 MPEC-1 播放 电视 信号、 
合用 于 广播 和 DVD 数字 视频 存储 的 视频 编码 ,大 约 2 ~ 15 Mbps 码 率 分 配给 视频 和 音频 编 
43, FECT ISO MPEG-2 标准 [19] 以 及 内 数字 音 视 频 委员 会 (DAVIC; www. davic.org) 和 
DVD 协会 制定 的 DVD 操作 说明书 [25]。 这 项 工作 扩展 到 了 分 配 码 率 范围 为 15 ~ 
400 Mbps 的 HDTV 视频 编码 。 应 用 系统 包括 卫星 电视 ,有线 电视 、 地 面 广播 .视频 编辑 
和 存储。 如 今 ,MPEG-2 视频 被 应 用 于 每 一 个 数字 机 项 盒 ， 它 已 被 选择 为 美国 HDTV J 
播 系统 的 视频 解码 器 。 
日 分 离 的 音 视频 物体 (包括 广 然 的 和 合成 的 ) 的 编码 在 ISO MPEC-4[22] 咎 被 标准 化 。 日 
标 应 用 系统 基因 特 网 视频 .交互 式 视频 ,内 容 管 理 , 专 业 视 频 .… 维 和 三 维 计算 机 图 形 以 
友 移 动 视频 通信 。 
在 以 下 各 节 中 ,我们 将 首先 描述 标准 H.261 ,然后 ,将 重点 说 明 11.263 与 H.261 的 不 同 ,并 
且 比 较 它们 的 编码 效率 。 然 后 ,我 们 将 讨论 MPEG-1,WMPEG-2 和 MPEG 4, 也 是 集中 讨论 它们 的 
区 别 。 
















































































13.2 采用 H.261 和 H.263 的 视频 电话 


64 kbps 的 视频 编码 最 早 是 在 1979 年 的 一 次 会 议 上 论证 的 [57]。 大 约 花 帆 了 十 多 年 的 时 
间 来 定义 在 这 个 码 率 下 的 商业 上 可 行 的 视频 编码 标准 。H.261 标准 发 布 于 1990 年 ,从 而 使 视 
频 会 议 使 用 1 ~ 30 个 SDN 信道 。 那 时 不 同 厂商 的 视频 会 议 硬件 都 是 可 用 的 。 如 销售 具有 专 
利 算法 视频 会 议 设备 的 PictwreTel 公司 很 快 就 提供 了 H.261 作为 可 选项 。 后 来 , TTU 开发 了 类 
似 的 标准 H. 263 , 它 能 使 视频 通信 在 模拟 电话 线路 上 上 传输。 如今,H.263 视频 编码 器 和 解码 器 
软件 被 安装 在 每 - -个 具有 Windows 操作 系统 的 PC 机 上 。 
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13.2.1 H.261 概述 


图 13.4 泵 出 了 以 4:2:0 采样 格式 处 理 视频 的 日 .261 编码 器 方 
补 传 的 基 上 块 的 混合 编码 器 (9.3.1 节 ) , 它 把 钢 像 分 成 16 x 16 像素 尺寸 的 宏 块 。 一 
笃 度 块 (一 个 用 于 Cr She 
间 宛 余 度 ,使 用 DPCM 环 路 以 利用 由 


4 个 亮度 块 和 两 个 
8x8 DCT 以 减少 < 
素 向 前 运 






动 补偿 (图 13.4 中 的 方 柜 P), DEE DPCM 环 路 的 性能 ， 


p 
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EM, EAP A eh 
KB 
Cb 分 车) 组 成 。 日 .261 对 每 个 块 使 用 
问 元 余 度 ,并 对 宏 块 使 用 单 向 整数 像 
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图 13.4 H261 编码 器 的 方 框图 [41 


RA Atay PE UAE PE REEE 2 9. 3.5 节 ) 对 运动 补偿 预测 信 
会 减少 防 测 误差 并 降低 据 测 图 像 的 块 效 应 。 环 路 滤波 器 可 分 离 为 


13.4 PAY IHE 站 ES 


STK (图 


HERBE y ] 的“ 纵 水 平和 垂直 丽 数 。H.261 对 DCT 系数 采用 两 个 量化 器 。 用 步 长 
为 8 的 均匀 量化 器 生化 帧 内 复式 的 DC 系数 ,用 步 长 为 2 62 的 接近 均匀 的 中 间 踏 板 量化 器 





IAE P RERET RERAN AC 系数 ( 








0。 BR TPES, HIG THY, 





这 个 死 区 


13.5)。 在 -了 到 了 之 癌 的 输入 称 为 多 区 ,被 量化 为 
避免 对 主要 会 引起 编码 噪 市 的 许多 小 的 DCT 系数 





进行 编 三 。 


解码 器 十 要 优 输 每 个 编码 安 块 的 琴 类 信息 :由 预测 误 益 信息 
13.4 中 的 9) 和 由 运动 估计 器 估计 出 的 运动 矢量 (网 





/变换 产生 的 DCT 系数 (网 
13.4 中 的 d AUPE P)。 运 动 矢量 的 范围 





限制 在 + 16 个 像素 内 。 通 知 解码 器 EER Le He apy 编码 以 及 如 何 编码 的 控制 数据 
称 为 宏 鼎 类 型 (MIYPE) 和 编码 块 模式 (CRP)。 卜 13.1 RH T ARR 及 其 相应 的 VLC 








Be. HA 


模式 中 , 比特 流 包含 每 个 块 的 变 
(MQUANT) +2 的 改变 。 在 帧 间 模 式 中 ,编码 器 可 
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换 系 数 。 作 为 选择 项 ,可 以 标示 量化 器 步 长 
选择 只 传送 具有 或 不 具有 环 路 滤波 的 差分 纺 


码 运 动 矢量 (MYD)。 可 以 选择 传送 CBP, 以 便 指定 需要 传递 变换 系数 的 块 。 由 于 标准 不 规定 


编码 器 , 由 编码 器 厂商 确定 一 种 有 效 的 编码 控制 (图 














13.4 中 的 CC) 来 最 优 地 选择 MTYPE、CBP、 


MQUANT` 环 路 滤波 器 以 及 运动 矢量 (MV)[70]。 作 为 粗略 的 原则 ,我 们 可 以 选择 MTYP,CBP 以 


及 MYVD 使 预测 误差 为 最 小 。 然 而 ， 














为 传送 MV 花费 额外 的 比特 ,所 以 只 当 使 用 MV 比 不 用 


MV 预测 误差 低 很 多 时 , 才 传送 MY。 编 码 图 像 时 景 化 器 步 长 是 变化 的 ,从 而 图 像 编码 所 需 比 
特 数 不 需要 比 编码 器 在 两 个 编码 帧 之 间 所 能 传送 的 比特 数 更 多 (在 9.3.3 节 中 讨论 过 编码 模 
式 和 参数 选择 ) 。 


Pel 13.5 











在 日 .261 中 使 用 的 一 个 用 于 ( 除 帧 内 模式 的 DC 系数 外 ) 所 有 DCT 系数 的 共有 死 区 的 中 
间 踏 板 量化 器 ,图 的 下 部 表示 了 输入 幅度 x 与 输出 幅度 0(x) 之 问 的 量化 误差 6 = x - O(a) 


13.1 宏 块 类 型 的 VLC 表 ? 








预测 MQUANT MVD CBP TCOEFF vic 

HA x wr 

aA x 0000 001 
bay x x 1 

wi x x x 0000 1 
WJ + MC x 0000 0000 1 
h + MG x x x 0000 0001 
wih + MC x x x x 0000 0000 01 
WE + MC + FIL x 001 

BUA + MC + FL. x x x ol 

Willi] + MC + FIE x x x x 9000 01 





OPI} MTYPE 用 于 帧 内 编码 的 宏 块 ,8 个 MTYPE PBA, 


表示 对 该 宏 块 所 传送 的 语法 元 素 [41j。 
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宏 块 内 的 大 部 分 信息 是 用 由 测试 序列 的 统计 特性 导出 的 可 变 长 码 进行 编码 的 。 二 维 DCT 
系数 是 用 9.1.7 节 中 讨论 的 游程 编码 方法 编码 的 。 具 体 地 说 ,量化 的 DCT 系数 通过 “7Z" 形 扫描 
(图 9.8) 转 换 成 符号 (图 9.9)。 每 个 符号 包括 从 最 近 的 一 个 非 零 系数 以 来 被 量化 为 零 的 系数 
个 数 以 及 当前 前 非 零 系数 的 幅度 。 注 意 在 图 9.9 所 述 前 例子 中 ,根据 JPEG 图 像 编码 方法 ,DC 
系数 是 个 别 地 进行 编码 的 。 对 于 了 .261 和 其 他 的 视频 编码 标准 ,所 有 的 DCT 系数 都 转换 成 
(游程 , 值 ) 这 样 的 符号 。 如 果 DC 系数 是 非 零 的 ,那么 第 一 个 游程 为 零 。 这 样 ,图 9.9 中 的 第 一 
个 编码 符号 应 该 是 (0,5)。 每 个 符号 用 VLC 进行 编码 。 在 块 的 最 后 一 个 非 零 系 数 之 后 ,编码 
器 输出 一 个 块 结束 (EOB) 符 号 。 

H.261 并 未 规定 视频 编码 器 的 能 力 。 然 而 , 表 13.2 中 列 出 了 H.261 解码 器 必须 支持 的 图 像 
格式 。 建 立 视频 会 议 通话 的 几 个 标准 也 交换 终端 之 间 的 视频 能 力 。 在 H.320 定义 的 最 小 级 别 
上 ,一 个 解码 器 必须 能 以 7.5 Hz 的 速率 解码 QCIF 帧 [46]。 可 选 的 能 力 级 别 定义 为 以 15 He 解码 
CIF 帧 [46]。 最 大 的 级 别 要 求 以 30 下 (精确 地 说 是 30000/1001 Hz) 的 速率 解码 CIF 帧 [46]。 


13.2.2 H.263 简介 


H.263 标准 是 基于 H.261 框架 的 。 由 于 视频 压缩 技术 的 进步 以 及 合理 价格 的 高 性 能 台式 
计算 机 的 普及 使 用 ,ITTU 决定 在 H.263 标准 中 放 入 计算 能 力 更 强 且 效 率 更 高 的 算法 。H.263 的 
发 展 分 为 三 个 阶段 。 初 始 标准 的 技术 工作 于 1995 年 11 月 完成 。H.263 的 扩展 ,别名 为 
H.263 + ,于 1997 年 9 月 并 人 到 标准 中 。 第 三 个 阶段 的 结果 ,别名 为 日 .263 + + ,于 1999 年 合 
并 到 标准 中 ,并 且 于 2000 年 11 月 正式 通过 。 在 这 一 节 中 我 们 集中 讨论 1995 年 的 H.263 与 
H.261 的 区 别 。 我 们 也 简单 地 描述 2000 年 的 H.263。 

H.263 基线 (1995 年 } 与 H.261 ”H.263 包括 一 个 基线 解 仙 器 ,该 基线 解码 器 具有 任何 
H.263 解码 器 必须 实现 的 特性 。 另 外 还 定义 了 可 选 特性 。 以 下 必须 遵循 的 特性 使 1995 年 
11 月 制定 的 二 ,263 与 H.261 相 区 划 [6,12]: 

: 半 像素 运动 补偿 :在 物体 运动 需要 高 的 空间 分 辩 率 以 实现 精确 模拟 的 情况 下 , 这 个 特 
性 可 大 大 提高 运动 补偿 算法 的 预测 能 力 。 在 非 整数 运动 矢量 的 情况 下 ,用 双 线 性 内 插 
《简单 平均 ) 计 算 预测 像素 。 运 动 矢量 的 编码 是 用 三 个 邻近 宏 块 的 中 值 运动 矢量 作为 
对 该 矢量 的 每 个 分 量 的 预测 (图 13.6)。 


| d, | d; 
1 当前 运动 矢量 
[a a | di. dz, dy: 预测 因子 


预测 = 中 值 (di, dz. d3) 
宏 块 边界 
























































中 Ja |a a |oo| 
| a | a dla 











图 13.6 使 用 页 ,ds 和 dy 中 值 的 运动 矢量 预测 、 如 果 一 个 宏 块 在 图 像 或 组 坎 的 外 面 , 则 我 们 
假设 其 运动 矢量 为 零 -如 果 有 两 个 宏 块 在 外 面 , 则 我 们 用 剩 下 的 运动 矢量 作为 预测 





RIZE A 


SRR ARE 
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2. 改善 的 可 变 长 编码 ,包括 三 维 VLC 以 提高 DCT 系数 编码 的 效率 。H.261 对 符号 (游程 ， 
幅 值 ) 进行 编码 ,并 在 每 个 块 的 结束 发 送出 ~… 个 EOB 字 , 而 H.263 把 BOB 字 结 全 到 
VLC 中 。 要 编码 的 事件 是 (最 后 ,游程 , 幅 值 ) ,而 其 中 “最 后 "指示 该 系数 是 不 是 块 中 最 


后 的 “个 韭 零 系数 。 





3. 在 块 组 级 以 及 MTYPE 和 CBP 编码 中 降低 开销 。 


4. 支持 更 多 图 像 格式 ( 表 13.2)。 


表 13.2 ”由 H.261 和 H.263 所 支持 的 图 像 帧 格式 











Sub-QCIF QCIF CIF 4 CIF 16 CIF 自 定义 尺寸 
亮度 宽度 (像素 ) 128 w% 3 704 1408 <2048 
ABARRE) % 144 288 516 1152 < 1152 
11.261 ~ Opi. si 
11.263 ~v J Opt. Opt. Opi. 

“Opt.” = 可 选 ;*Still" = 静止 图 像 
除了 这 些 改 善 外 ,H.263 还 提供 了 一 组 定义 在 标准 的 附件 中 的 可 选 特性 。 


1. 无 限定 运动 矢量 (附件 D)。 它 允许 指向 图 


边界 的 情况 下 可 提高 编码 效率 。 对 指向 
像 的 边界 像素 牛 成 的 。 运 动 欠 量 范围 扩 














XN 





时 ,对 于 了 帧 平均 比特 率 节省 4% ,对 于 
了 50% 以 上 [10]。 这 将 限制 实现 这 个 附 


基于 语 汰 的 算术 编码 (附件 上 ) 可 用 于 代 棕 





展 到 [ - 31.5, 31]。 


件 的 制造 商 数量 ?。 





F: BAHE AM (OBMO) T RK 

















ARRIE, ERRE RER EENE 
图 像 外 面 的 运动 矢量 的 预测 信号 大 由 重复 图 


可 变 长 ( 险 大 曼 ) 编 码 , 产 生 相同 的 解码 图 像 
工 帧 节省 10% 。 然 而 ,解码 器 的 计算 需求 增长 


先进 预测 模式 (附件 F) 包 括 无 限定 运动 矢量 模式 。 先 进 的 预测 模式 提供 了 两 个 附加 改 
图 像 的 党 度 分 量 , 它 提高 了 枝 测 性 能 并 电 著 减 





少 了 块 失 真 ( 见 9.3.2 节 )[59]。 在 一 个 8x8 的 亮度 预测 快 中 ,每 个 像素 是 由 -个 运动 
矢量 计算 得 到 的 三 个 顶 测 值 的 加 权 和 ;这 三 个 运动 和 撩 旦 是 :当前 宏 央 的 矢量 和 最 靠近 
当前 3x 8 块 的 两 个 发 块 的 矢量 。 运 动 估计 的 加 权 系 数 和 等 价 的 窗 函 数 已 经 在 图 








9.16 及 图 9.17 中 二 出 了 。 





先进 的 运动 预测 的 第 二 个 改善 是 -个 宏 块 可 选择 使 用 4 个 运动 矢量 ,每 个 亮度 块 
一 个 。 这 样 能 够 较 好 地 模拟 走 实 图 像 中 的 运动 。 然 而 , 这 需要 编码 器 来 决定 在 哪个 宏 
鼎 中 4 个 运动 矢量 足以 证 明 编码 这 些 运动 矢量 所 需 的 额外 比特 是 值得 的 。 这 些 运动 














矢量 也 是 预测 地 来 编码 (图 13.7)。 





人 








像 在 时 间 上 位 于 PB 图 像 的 P 图 像 之 前 。 












































的 像素 对 齐 的 像素 【图 13.8 oH ARR IK BE 


T ”这 个 附件 使 用 了 -个 次 最 优 的 算术 编码 实现 。 














- PB 图 像 (附件 G ) 是 把 双向 预测 庆 像 与 一 般 前 向 抠 测 图 像 一 起 编 码 的 -- 种 模式 。B 图 


与 基于 逐 帧 计算 的 双向 预测 对 比 (9.2.4 节 ， 

















区 )。 对 于 日 块 中 的 淡 卡 度 


图 9.12),PB 图 像 使 用 宏 块 级 的 双向 预测 。 在 一 个 PB 帧 中 ,每 个 发 块 的 块 数 肯 是 12 
而 不 是 6。 在 但 个 宏 块 内 ,属于 P 图 像 的 6 个 块 先 传输 ,随后 是 B 图 
双向 预测 得 自前 一 个 解码 的 帧 和 当前 宏 块 的 P 块 。 如 在 图 13.8 所 看 到 的 ,对 于 在 R 
图 像 和 P 图 像 之 间 运 动 的 情况 下 ,这 就 把 后 向 预测 限制 于 B 据 中 那些 与 当前 P 宏 块 内 


像 的 决 (图 13.8)。 





区 ,通过 前 向 和 后 


322 视频 处 理 与 通信 











向 预测 结果 的 平均 计算 预测 。B 块 的 白色 区 域 中 的 像素 只 用 前 向 运动 补偿 进行 预测 。 
一 种 改进 的 PB 帧 模式 (附件 MM) 后 来 被 采纳 ,该 模式 去 除了 这 种 限制 ,能 够 得 到 常规 B 





帧 的 效率 (9.2.4 节 )。 





| & 4, 
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图 13.7 以 先进 预测 模式 预测 运动 矢量 ,一 个 
当前 运动 矢量 d 的 分 量 邮 








PER 


d 当前 运动 矢量 
di, dz di: 预测 因子 
KPH 





` 宏 块 中 具有 4 个 运动 矢量 


测 值 是 它 的 预测 因子 的 中 值 





图 13.8 在 PB 帧 中 ,前 向 预测 可 用 于 所 有 的 B 块 ;后 向 预测 只 用 


于 其 后 向 运动 矢量 与 当前 宏 块 


的 像素 对 齐 的 那些 像素 


对 编码 中 等 幅度 运动 的 图 像 序列 ,PB 图 像 是 非常 有 效 的 。 对 于 快速 运动 或 复杂 运动 的 场 
景 ;或 以 低 帧 率 编码 时 ,PB 图 像 的 效果 不 是 很 好 。 由 于 R 图 像 的 图 像 质量 不 影响 后 续 帧 的 编 
码 ,H.263 规定 PB 图 休 集 的 B 图 像 以 低 于 P 图 像 的 质量 编码 ,对 了 块 使 用 比 相应 的 B 块 更 小 








的 量化 器 步 长 。PB 图 像 增加 了 编码 系统 的 延迟 ,因为 它们 只 在 后 面 的 了 帧 被 摄取 和 处 理 后 才 

















允许 编码 器 送出 B 帧 的 比特 。 这 限制 了 它们 对 交互 式 实时 应 用 系统 的 用 途 。 


由 于 编码 模式 的 数目 较 大 ,编码 器 的 判决 比 H.261 中 的 更 复杂 。 对 具有 可 
矢量 模式 和 先进 预测 } 的 RD 最 优 H.263 编码 器 与 标准 开发 时 所 用 的 测试 模型 











了 比较 [70]。 比 特 率 在 20 ~ 70 kbps 之 间 时 ,最 优 编码 器 的 PSNR 比 TMN5 提高 0.5 ~ 1.2 dB。 
2000 年 的 H.263 ”批准 了 H.263 的 最 初版 本 后 ,工作 继续 进行 ,进一步 漆 加 了 可 选 模式 。 


然 面 ,由 于 存在 15 个 以 上 的 可 选 模式 ,对 于 任何 制造 商 来 讲 实现 所 有 这 些 可 


题 的 。ITU 认识 到 了 这 一 点 ,把 推荐 模式 增加 到 标准 对 
的 推荐 模式 。 








EE 议 中 。 这 里 列 出 以 前 未 提 到 的 最 





[选项 (无 限制 运动 
编码 器 TMN5 进行 


[ 选 模式 都 是 有 问 


a 


1. Fes AA RTS CH D ; 帧 内 块 用 左 侧 的 块 或 上 方 的 块 作 为 预测 来 进行 编码 ,只 要 该 
块 也 是 以 帧 内 模式 编码 的 。 这 种 模式 将 [ 图像 的 编码 效率 提高 10 ~ 15%. 
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2. 去 除 块 效应 滤波 器 (附件 ]): 在 解码 的 8 x 8 块 的 边界 应 用 自 适 应 滤波 器 ,以 减 小 块 失 
真 。 这 个 滤波 器 也 影响 预测 图 像 , 它 是 在 纺 码 器 和 解码 器 预测 环 的 内 部 实现 的 。 

3. 补充 增强 信息 (附件 L) :这 种 信息 可 用 来 提供 由 使 用 H.263 的 应 用 系统 定义 的 用 于 外 
部 应 用 的 标志 信息 。 进 一 步 , 它 可 用 于 通知 增强 的 显示 能 力 ,例如 帧 冻结 、 缩 放 或 色 键 
{ 见 10.3 节 )。 

4. 改进 的 PB 帧 模式 (附件 MD :如 已 提 到 的 ,这 种 模式 去 掉 了 附件 G 的 加 于 后 向 预测 的 限 
制 。 因 此 ,这 种 模式 使 常规 的 双向 预测 成 为 可 能 (9.2.4 节 )。 

这 些 工具 已 经 开发 出 来 以 提高 编码 效率 。 为 了 使 H.263 视频 能 在 不 可 靠 网 络 ( 例 如 无 线 
网 和 因特网 ) 上 传输 ,也 已 开发 了 一 组 以 差错 复原 为 目的 的 工具 。 这 些 工具 包含 在 附件 H (用 
BCH 码 的 前 向 纠 错 ) ,附件 K( 用 片 结构 模式 的 灵活 同步 标记 插入 )、 附 件 N 和 U( 参 考 图 像 先 
择 )、 附 件 0( 可 分 级 性 )、 附 件 R( 狐 立 分 割 解码 )、 附 御 Y( 数 据 分 割 和 RVC) DLR ER 页 (包头 
重复 ) 中 。 在 第 14 章 描述 了 这 些 工 具 。H.263 的 进一步 讨论 可 在 参考 文献 [6] 和 标准 本 身 
[50] 中 找到 。 


13.2.3 比较 


图 13.9 比较 了 4.26) 和 H.263 的 性 能 [10]。 图 中 示 出 了 使 用 和 不 使 用 环 路 滤波 器 的 
H.261 (曲线 3 和 5)。 因 为 H.261 是 为 64 kbps 及 以 上 的 数据 率 设计 的 ,所 以 我 们 在 这 个 速率 
上 讨论 图 13,9。 当 没有 可 选项 时 ,H.263 优 于 H.261 近 2 dB( 曲 线 2 和 3)。 如 果 我 们 使 用 先进 
预测 、 基 于 语法 的 算术 编码 和 PB 帧 这 些 选 项 ,可 以 另外 获得 1 dB 的 增益 (曲线 1)。 曲 线 4 表 
明 , 把 H,263 的 运动 矢量 限制 于 整数 像素 会 降低 编码 效率 达 3 dB。 这 是 由 于 降低 了 运动 补偿 
精度 和 没有 低 通 滤波 器 所 引起 的 ; 它 的 双 线 性 内 插 引 入 半 像 素 运动 矢量 。 上 比较 曲 线 3 和 5 可 
看 出 这 种 低 通 滤波 器 对 编码 效率 的 影响 。 曲 线 4 和 5 之 间 的 区 别 主要 是 由 于 变换 系数 的 三 维 
VLC 编码 以 及 编码 MTYPE 和 CBP 的 改进 引起 的 。 
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图 13.9 QCIF 格式 各 12.5Hz 帧 率 下 序列 “Foreman* 的 H.261 和 H.263 的 性 能 
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13.3 可 视 通 信 系统 的 标准 


为 了 应 用 音 视频 通信 ,终端 必须 建立 一 个 公共 的 通信 信道 ,交换 它们 的 权能 ,并 且 在 用 于 
交换 音 视 频 信息 的 标准 上 取得 一 致 。 换 句 话说 ,我 们 需要 不 小- -个 音频 和 视频 编 解码 器 ,以 使 
使 音 视 频道 信 成 为 可 能 。 在 服务 器 与 客户 之 间 通 过 网 络 建立 通信 是 由 一 个 系统 标准 解决 的 。 
JTU -了 开发 了 几 个 系统 标准 (包括 H.323 和 贡 .324) 建 立 不 同 网 络 上 的 双向 多 媒体 通信 , 开发 
了 几 个 用 于 襄 频 通信 的 音频 编码 标准 以 及 项 个 重要 的 视频 编码 标准 H.261 和 及.263。 表 13.3 
示 出 了 这 些 系统 标准 所 用 的 视频 ,音频 . 复 用 和 评 叫 控制 标准 的 概述 [5]。 下 面 , 我 们 简单 描述 
一 王 最 近 的 怀 准 H.323[511 和 H.324[44] 的 功能 。 

表 13.3 1TU-T 多 媒体 通信 标准 


T 



































网 络 系统 视频 音频 复 用 控制 . 
Sr “H.R 1.26113 G.723.1 H.223 HM 
N = ISDN H. 320 H.261 C. Tax. H.221 H.242 
B- ISDN/AIM H.321 H.261 G.Txx H.221 Q.2931 
H.310 H. 261/2 G. Tx MPEG H.222.0/1 245 
QS LAN H. 322 H.261/3 GTa H. 221 H. 242 
Non — QoS LAN H.323 H. 261 CT H.225.0 1.245 





PSIN: 公 共 交 换 电 话 网 ; N~ ISDN: ASAE GR GE lb BF PA (2 x 64 kbps); B- ISDN: 宽 带 ISDN; ATM; AREER, QoS: ARLE 
BARS ALS LAN, a RPAH. 262 等 价 于 MPEC-2 视频 [43 17] 56. Jax 代表 C.711, 6.722 和 C728。 


13.3.1 H.323 多 媒体 终端 ， 


建议 H.323[51] 提 供 了 在 因特网 等 基于 包 的 网 络 .上 运行 的 多 媒体 通信 系统 的 技术 要 求 ， 
在 这 种 网 络 上 保证 的 服务 质量 经 常 是 不 可 利用 的 - 

图 13.10 示 出 了 HH.323 为 在 打包 网 络 上 传输 视频 会 议 所 需要 的 各 种 协议 和 标准 。H.323 
呼叫 模式 可 选择 地 由 门 管 理 宕 允许 请 求 开始 (H.225.0 HAS,[48])。 然 后 呼叫 信 通信 终端 
之 问 娃 立 连接 (HT.255.0,[48])。 接 下 来 为 呼叫 控制 和 权能 交换 建立 通信 信道 (H.245,[49])。 
最 后 ,用 RIP 及 其 相关 的 控制 协议 RICP[65] 建 立 媒体 流 。 -个 终端 可 支持 几 个 音频 和 视频 纺 
解 色 器 ,然而 ,对 CG.711 音频 (64 kbps) 的 支持 屁 强 制 性 的 。G.711 是 目前 用 于 电话 呼叫 数字 传 
输 的 公共 交换 电话 网 (PSTN) 的 标准 。 如 果 终 端 要 求 有 视频 权能 , 它 必 须 至 少 包括 一 个 具有 
QCIF 空间 分 辩 率 的 H.261 视频 编 解码 器 [41]。 现 代 HH.323 视频 终端 通常 使 用 H.263[ 50] 进 行 
视频 通信 
13.3.2 H.324 多 媒体 终端 

JI.324[44} 不 同 于 H323, 7E PSTN 上 使 用 V.34[ 42] 调 制 解 调 器 时 , 它 使 相同 的 网 络 通信 
能 具有 保证 的 服务 质量 。H.324 可 雪 持 多 媒体 类 型 的 话音 .数据 以 及 视频 。 如 果 终 端 支持 这 


些 媒体 中 的 一 个 战 多 个 ,都 么 它 就 可 使 用 与 H.323 一 样 的 音 视频 编 解码 器 。 然 而 , 它 也 支持 
H.263 视频 和 G.723.1 在 5.3 和 6.3 kbps 速率 的 音频 [38]。6.3 kbps 速率 的 G.723.1 编 解 码 
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器 的 音频 质量 非常 接近 常规 电话 。 用 H.245 处 理 呼叫 控制 。 在 PSTN 上 传输 这 些 不 同类 型 的 
媒体 要 求 按照 H.223 复 用 标准 145] 进 行 媒体 复 用 (图 13.11)。 复 用 后 的 数据 经 V.34 调制 解 
调 器 送 到 PSTN, 用 V.8 或 V.8bis 程序 [53,52] 开 始 和 停 站 传送。 和 如果 H324 终端 使 用 外 部 的 


调制 解 调 器 ,就 要 用 调制 解 调 器 控制 Y.25ter[ 47] 


FES 
控制 数据 音频 ”视频 er) 控制 
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图 13.10 用 于 TCP/IP 多 媒体 通信 的 H.323 协议 


日 324 建 议 的 范围 
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E 13.11 在 PSIN 上 的 H.324 


I 
i 
i 
sso | aranwa | | 
设备 L EP EE S) am) |as 

i & 
1 

Li 
l 
| 
I 
i 
] 

EN 
1 
I 











多 媒体 通信 系统 的 方 框图 


13.4 采用 MPEG-1 的 消费 视频 通信 


MPEG 标准 是 由 Leonardo Chiariglione 任 主席 的 ISO/IEC JTC1 SC29/WG11 开发 的 。MPEC-1 
是 为 多 媒体 应 用 中 所 使 用 的 逐 行 扫描 的 视频 设计 的 ,目标 是 要 在 大 约 1,2 Mbps( 包 括 音频 和 视 
SITE 1.5 Mbps) 的 比特 率 下 生成 接近 VHS 质量 的 视频 。 由 于 预见 到 大 多 数 的 多 媒体 内 容 是 
在 CD- ROM 上 发 布 的 ,在 开发 MPEG-1 时 ,1.5 Mbps 是 CD— ROM 播放 器 的 访问 速率 。 视频 格 








式 是 SF。 最 终 的 标准 支持 更 高 的 速率 和 更 大 的 











RRR. FR MEGI 时 的 另 一 个 重要 考 
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虑 是 实现 支持 类 似 录 像 机 (VCR) 的 基本 的 交互 式 功能 ,如 快 进 、 快 倒 以 及 每 半 秒 随 机 地 访问 存 
储 的 比特 流 [55]。 


13.4.1 概述 


MPEG-1 标准 正式 应 称 为 ISO 11172[16], 它 由 5 部 分 组 成 : 系统 ,视频 .音频 、 一 致 性 议 及 
软件 。 

MPEG-1 系统 提供 一 个 把 编码 的 音频 各 视频 数据 组 合 起 来 的 包 结 构 。 它 使 系统 能 够 把 几 
个 音频 和 视频 流 复 用 成 一 个 流 , 允许 各 个 流 同 步 地 重 放 。 这 要求 所 有 的 流 都 要 以 公共 的 系统 
时 钟 (STC) 为 基准 。 从 这 个 STC 中 , 可 导出 演播 时 间 标 志 (PIS); 它 规定 了 一 个 特定 的 音频 或 
视频 帧 在 终端 出 现 的 时 间 。 由 于 带 有 B 帧 的 视频 编码 要 求 重 排解 码 图 像 ,用 解码 时 间 标 志 
《DTS) 指 明 什么 时 候 一 个 特定 的 图 像 必须 被 解码 。 

MPEG-1 音频 是 一 个 不 对 音频 信 源 性 质 做 伍 何 假设 的 一 般 标准 。 然 而 ,音频 编码 利用 了 人 
类 听觉 系统 的 感觉 局 限 以 降低 不 相干 性 。MPEC-1 音频 定义 了 三 层 :1, 卫 和 IT。 较 高 的 层 具 有 
较 高 的 编码 效率 并 和 要求 增加 的 解码 资源 。 在 20 世纪 90 年 代 初期 的 标准 化 期 间 , 光 其 是 层 OO 
由 于 计算 复杂 而 引起 过 争议 。 然 而 ,这 个 第 亚 层 MPEG-1 音频 编 解码 器 正 是 现在 每 位 音乐 迷 
都 知道 的 MP3。MP3 普及 的 原因 在 于 声音 质量 和 编码 效率 ,并 日 最 重要 的 是 ,在 一 段 时 间 内 ， 
专利 的 高 质量 的 编码 器 源 代码 可 以 下 载 到 公司 的 网 站 上 。 这 开始 了 音乐 产业 内 的 革命 ( 见 
13.1.2 节 有 关 成 功 祭 准 的 准则 ) 。 


13.4.2 MPEG-1 视频 


1989 年 10 月 主观 测试 后 开始 了 MPEG-1 视频 的 集中 阶段 ,并 导致 了 发 布 于 1993 年 的 标 
准 。 因 为 1990 第 发 布 了 H.261, 所 以 在 ,261 与 MPEG-1 之 间 有 许多 相似 之 处 。 图 13.12 示 出 
了 MPEG-1 编码 器 的 概念 性 方 杠 图。 与 H.261( ER 13,4) 相 比较 ,我 们 注意 到 如 下 的 区 别 : 
1. 没有 了 环 路 滤波 器 。 由 于 MPEG-1 使 用 半 像 素 精度 的 运动 矢量 , 因此 不 需要 滤波 器 ( 见 
13.2.3 节 )。 运 动 矢量 范围 扩大 到 十 多 像素 。 
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图 13.12 MPEC-1 编码 器 的 方 框图 
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2. MPEG-! FH LWR P GAT B Wi. A 8 帧 需要 一 个 较 复杂 的 运动 估计 器 和 运动 补偿 单元 。 
了 帧 的 运动 矢量 是 根据 两 个 参考 帧 估计 的 , 妇 前 一 个 工 帧 或 P 帧 以 及 下 一 个 工 帧 或 P 
帧 。 因 此 ,我 们 可 以 把 两 个 运动 矢量 与 B 帧 的 每 一 个 宏 块 联系 起 来 。 对 于 运动 补偿 预 
M ,我 们 现在 需要 黄 个 帧 存储 器 用 于 这 两 个 参考 图 像 。B 帧 的 预测 模式 是 对 每 个 宏 块 
决定 的 。 此 外 ,编码 顺序 不 同 于 扫描 顺序 ( 见 周 9.12) ,因此 ,在 编码 器 的 输入 和 解码 器 
中 我 们 需要 一 个 图 像 重 排 单元 。 

-XEF LOH, DCT 系数 的 量化 是 适应 人 类 视觉 系统 的 ,用 一 个 加 权 和 矩阵 来 除 这 些 系数 。 图 
13.13 示 出 了 该 默认 表 。 较 大 的 权 值 导致 系数 较 粗 的 量化 。 可 以 看 到 , 权 值 随 系数 所 
代表 的 频率 而 增加 。 当 在 相同 的 比特 率 下 比较 具有 和 不 具有 加 权 和 矩阵 的 编码 器 时 ,我 
们 注意 到 ,加 权 和 矩阵 降低 了 解码 图 像 的 PSNR, 但 提高 了 主观 质量 。 
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图 13.13 用 于 MPEG-1 中 I 块 量化 的 默认 权 值 。 水 平和 答 直 频率 的 权 值 不 同 


与 了 H.261 的 男 一 个 区 别 是 ,一 个 1 抉 的 DC 系数 可 以 由 它 的 左 邻 块 的 DCT 系数 预测 。 这 
个 概念 后 来 扩展 到 JPEG[15,40],H.263 和 MPEG-4 F, 

MPEG-1 使 用 一 个 图 像 组 (GOP) 结 构 ( 图 9.12)。 每 一 个 GOP 都 以 一 个 1 帧 开始 ,后 跟 一 定 
数量 的 了 帧 和 日 帧 。 这 样 能 随机 地 沪 问 视频 沉 , 也 能 实现 像 YCR 一 样 的 快 进 和 快 倒 功能 。 

因为 标准 支持 更 大 的 比特 流 特 件 范围 ,所 以 定义 了 一 个 特殊 的 编码 参数 子 集 , 称 为 约束 参 
数 集 (CPS) ( 表 13.4)。CPS 是 一 个 采样 和 比特 率 参数 被 限定 的 集 , 它 是 为 限制 解码 器 计算 复 
杂 度 ,缓冲 器 尺寸 以 及 存储 器 带宽 而 设计 的 ,但 它 仍 能 处 理 具 有 最 大 可 能 的 应 用 范围 。 用 CPS 
实现 的 解码 器 只 需要 4Mb 的 DRAM 就 能 支持 SIF 和 CIF 格式 。 比特 流 中 的 标志 位 指明 它 是 否 
为 CPS。 


















































表 13.4 MPEG-1 视频 的 约束 参数 集 








参数 最 大 值 

BRAT 768 BH 

行 /图 像 576 行 

每 幅 图 像 中 宏 块 的 数 日 396 宏 块 

每 秒 中 宏 块 的 数目 396 x 25 = 330 x 30 = 9900 
输 人 缓冲 器 尺寸 327680 字 节 

运动 矢量 分 重 士 人 4 像素 

比特 率 1,856 Mbps 








与 模拟 消费 质量 的 VCR 相 比 , MPEG-1 只 用 一 半 扫 描 行 编码 视频 。 然 而 在 1.8 Mbps 视频 
比特 率 下 ,一 个 好 的 编码 器 所 传送 的 视频 质量 可 能 超过 由 模拟 消费 VCR 记录 到 用 过 的 录像 带 














328 视频 处 理 与 通信 





上 的 视频 质量 ， 
13.5 采用 MPEG-2 的 数字 电视 


在 MPEC-1 标准 化 过 程 即 将 结束 时 ,已 经 变 得 清楚 的 是 .MPEG-! 不 能 以 广播 质量 有 效 地 
压缩 隔行 数字 视频 。 因 此 ,MPEG 组 发 出 了 征集 电视 广播 应 用 系统 的 音 虎 和 视频 数字 编码 技 
术 建 议 的 通知 ， 性 能 最 优 的 算法 吓 将 MPEG-1 扩展 到 处 理 隔行 视频 格式 。 在 算法 并 发 的 合作 
实验 阶段 ,保留 了 大 蝴 的 与 MPEG-1 的 相似 性 。 

MPEG-2 的 主要 目的 基 使 主要 使 用 TU - R BT.601( 原 来 的 CCIR601)4:2:0 格式 [35] 的 隔 
TEER HAIR MPEG-1 的 功能 。 目 标 是 产生 4 ~ 8 Mbps 码 率 的 电视 质量 图 像 和 10 ~ 15 Mbps 
码 率 的 高 质量 图 像 。MPEG-2 要 解决 SDTV 或 HDTV 隔行 视频 的 高 质量 编码 问题 。 这 涉及 到 
广泛 的 应 用 系统 ORR PR , 信 导 质量 和 服务 问题 ,包括 所 有 形式 的 数字 存储 媒体 .电视 
(包括 HDTV) 广 播 和 通信 [3]。 

MPEG-2 标准 [19] 向 9 个 部 分 组 成 ; 系统、 音频 ,视频 .一致 性 .软件 ,数字 存储 媒体 一 一 命 
令 与 控制 (PSM - CC) .先进 音频 编码 器 (AAC) .实时 接口 和 DSM - CC -和 译 性 。 在 本 节 中 ,我 们 
给 出 关于 MPEG-2 系统 .音频 ,视频 以 及 MPEG-2 的 类 概念 的 一 个 简单 的 概述 。 


13.5.1 系统 


MPEG-2 条 统 必须 具有 与 MPEG-1 RARER PEPE ATE UAE ,支持 ATM 网 络 传 
输 , 以 及 在 一 个 流 中 传送 一 个 以 上 的 电视 千 肯 而 不 要 求 这 些 竹 目的 共同 时 基 。MPECG-2 的 节目 
MCPS) 前 向 兼容 MPEG-1 系统 流 解 公 器 。 -个 PS 包含 来 各 单一 生日 的 压缩 数据 ,具有 通常 在 
41~2Kb 之 闻 直 到 64 Kb 的 可 灾 长 度 包 的 形式 。MPEG-2 的 传输 流 (1S) 与 MPPC-1 WHA, TS 
提供 如 有 线 电视 网 络 或 全 星 电视 所 需要 的 差错 复原 , 它 采 用 188 字 节 的 包 , 可 能 携带 具有 独立 
时 基 的 几 个 节 自 ,易于 频道 跳 转 访问 。 


13.5.2 音频 


MPEG-2 音频 分 为 陌 部 分 :在 慰 准 的 第 3 部 分 中 ,MPEG 定义 了 一 个 支持 五 通道 环绕 声 的 
前 向 和 后 向 兼容 的 音频 格式 。 其 语法 设计 使 MPEG-1 音频 解码 器 能 从 MPEG-2 音频 比特 流 的 
五 个 通道 向 下 混合 再 止 出 有 意义 的 输出 [18]。 在 第 ?7 部 分 中 ,定义 了 更 有 效 的 多 通道 音频 解 
ihik MPEC-2 AAC, 具 有 声音 效果 以 及 许多 其 他 特性 [20]。 对 于 同样 的 立体 声 质量 , MPEG-2 
AAC IE MPEG-1 JE M 音频 所 需 的 比特 少 30%. AAC 已 被 H 本 注 播 行业 采用 ;然而 , 它 还 没有 
作为 -种 格式 企 办 特 网 上 普及 ,因为 没有 免费 的 编码 器 可 利用 


13.5.3 视频 
MPEG-2 是 以 电视 演播 室 以 及 标准 清晰 度 电 视 和 高 清晰 度 电 视 广播 为 日 标的 。 央 此 , 它 必 


须 有 效 地 支持 晤 行 视频 编码 , 码 率 应 满足 应 用 系统 的 需要 、MDpPEC-! 与 MPEC-2 之 间 的 主要 区 
SIGE 


L. +j MPEG-1,H.261 it H.263 相 比 ,4:2:0 Hi REN RE KERN 0.5 不 像素 
{图 13.14)。 
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图 13.14 4:2:0 逐 行 帧 中 的 亮度 和 色 度 采样 点 
2. MPEC-2 能 够 编码 4:2:0 格式 的 隔行 序列 (图 13.15)。 
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图 13.15 4:2:0 隔 行 帧 中 的 亮度 和 色 度 采 样 点 ,其 中 顶 场 在 时 间 上 外 前 


. 由 上 述 结果 ,MPEG-2 允许 DOT 系数 的 其 他 扫描 图 形 和 具有 16 x 8 像素 尺寸 的 块 运动 
补偿 。 

例如 DCT 的 DC 系数 的 10 比特 量化 , 非 线性 量化 和 较 寻 的 VIC 表 等 几 个 区 别 也 提高 
了 逐 行 视频 序列 的 编码 效率 。 

.MPEG-2 支持 各 式 各 样 的 可 分 级 性 。 空 间 吕 分 级 性 使 不 同 的 解码 器 能 从 同一 个 比特 流 
中 提取 出 不 同 图 像 尺 寸 的 视频 。MPEG-2 支持 时 间 可 分 级 性 ,可 把 比特 流 解码 成 不 同 
帧 率 的 视频 序列 。 此 外 ,SNR 可 分 级 性 提供 了 从 同一 个 比特 流 中 提取 出 不 向 幅度 分 辩 
率 的 视频 序列 的 能 力 。 

- MPRG-2 定义 了 类 和 级 ,它们 构成 了 MPEC-2 的 特性 子 集 及 其 参数 范围 ,其 参数 范围 在 
比特 流 的 头 中 具有 标识 信号 ( 见 13.5.4 节 )。 通 过 这 种 方法 ,依从 MPEC-2 的 解码 器 立 
即 可 知道 它 是 否 能 解码 这 个 比特 流 。 

. MPEG-2 允许 高 得 多 的 比特 率 ( 见 13.5.4 节 )。 


下 面 我 们 将 讨论 为 支持 隔行 视频 和 可 分 级 性 所 引 人 的 扩展 。 

隔行 视频 编码 ”局 行 视频 是 一 个 顶 场 和 底 场 交替 的 序列 ( 见 1.3,1 节 )。 如 果 两 个 场 都 是 
项 场 或 都 是 底 场 , 它 们 就 具有 相同 的 极 性 。 否 则 ,就 称 这 两 个 场 具有 相反 的 极 性 。MPRG-2 考 
庶 琴 种 类 型 的 隔行 视频 图 像 结构 (图 13.16)。 帧 图 像 是 由 隔行 图 像 的 夺 场 和 底 易 的 行 以 隔行 
顺序 组 成 的 。 当 编码 逐 行 视频 时 也 用 这 种 帧 图 像 结 构 。 场 图 像 保持 图 像 的 顶 场 和 底 场 分 离 。 
对 每 种 图 像 ,都 可 利用 1 图 像 P 图 像 以 及 B 图 像 编码 模式 。 

MPEG-2 添加 了 新 的 运动 补偿 预测 模式 ,所 有 这 些 模式 都 与 隔行 视频 有 关 : 
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图 13.16 帧 和 场 图 像 结构 (各 个 场 的 全 视图 ): 每 - 帧 由 -个 项 
场 和 一 个 底 场 组 成 ;任何 一 场 都 可 能 在 时 间 上 居 前 
































L 场 图 像 的 场 预 测 用 来 预测 场 图 像 中 的 宏 块 。 对 于 P 场 ,预测 可 以 来 自 两 个 最 近 编 码 的 
任何 一 场 。 对 于 B 场 ,我 们 使 用 属于 两 个 参考 图 像 的 两 个 场 ( 图 13,17)。 
fie | BEER dae dete Be 
一 一 一 一 一 人 一 一 一 一 
> 
=] Tl BL T2 B2 T3 B3 场 ET4 Ba TS BS 
a 1 2 3 w 4 5 
~ 
ee eT 
编码 的 声 编码 的 场 


图 13.17 “与 场 图 像 的 场 预测 有 关 的 每 个 宏 块 都 位 于 参考 图 像 的 一 场 之 内 。 图 像 可 以 具有 不 同 的 极 性 
2. 帧 图 像 的 场 预测 把 该 帧 的 一 个 宏 块 分 成 项 场 像素 和 底 场 像素 ,产生 两 个 16 x 8 的 场 块 





(图 13.18)。 每 


个 场 块 是 独立 于 另 
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的 。 这 种 预测 方法 特别 适用 于 快速 运动 。 
图 13.18 帧 图 像 的 场 预测 :要 预测 的 宏 块 分 成 顶 场 像素 和 底 场 像素 。 每 个 16x 8 
的 场 块 用 它 自己 的 运动 矢 基 (了 帧 ) 或 两 个 运动 矢量 (B 帧 ) 分 别 进行 预测 
3. 图 像 的 双 基 为 每 个 宏 块 传输 一 个 运动 矢量 ; 这 个 运动 矢量 可 用 于 由 前 面 的 图像 或 T 



































图 像 来 预测 场 和 帧 图 像 。 目 标 宏 块 被 形 示 为 两 个 场 块 。 编 码 器 为 每 个 场 块 计算 两 个 


预测 值 并 平均 它们 。 每 个 场 块 的 第 一 个 预测 值 是 通过 运动 补偿 计算 的 ,在 计算 中 使 用 
所 和 传输 的 运动 矢量 和 具有 相同 极 性 的 参考 场 。 每 个 场 块 的 第 二 预测 值 是 用 修正 运动 
矢量 和 具有 不 同 极 性 的 参考 场 计算 的 。 修 正 运动 矢量 是 在 假设 线性 运动 的 条 件 下 计 
算 的 。 考 虑 到 同 极 性 场 之 间 的 时 间距 离 ,所 传输 的 运动 矢量 被 缩放 以 反映 反 极 性 场 之 
闻 的 时 间 虐 离 。 然 后 与 一 个 所 传输 的 差分 运动 矢量 (DMV) 相 加 ,产生 修正 的 运动 矢 
量 。 对 于 隔行 视频 ,这 种 了 图像 的 双 基 预测 模式 具有 与 使 用 B 图 像 一 样 的 效率 ,但 不 











增加 8 图像 的 延迟 。 
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. 场 图 像 的 16 x 8MC 对 应 于 帧 图 像 的 场 预 测 。 在 一 个 宏 块 内 ,属于 不 同 场 的 像素 具有 它 





们 自己 的 四 于 运动 补偿 的 运动 和 撩 明 ; 也 就 是 说 ,为 图像 传输 两 个 运动 矢量 ,为 B 图 像 


传输 四 个 运动 矢量 。 
如 此 多 的 预测 选择 显然 使 最 优 编码 器 的 设计 很 具有 挑 成 性 。 











在 隔行 视频 中 ,一 个 宏 挟 中 的 相 邻 行 来 自 于 不 同 的 场 ,因此 当场 景 包含 具有 垂直 分 重 的 运 








动 时 ,就 会 降低 行 之 间 的 垂直 相关 性 。MPECG-2 提供 了 两 种 新 的 编码 模式 来 增加 预测 误差 编码 


的 效率 。 
1. 场 DCT 把 一 个 宏 抉 的 像素 重新 组 织 成 顶 场 的 两 个 块 和 底 场 的 两 个 块 (图 13. 
增加 了 运动 情况 下 块 内 的 相关 性 ,从 而 增加 了 编码 效率 。 


18)。 这 就 


2. MPEG-2 提供 了 一 种 交替 扫描 ,编码 器 可 以 基于 图 像 更 替 选 择 这 种 扫描 。 这 种 扫描 把 
具有 高 垂直 频率 的 系数 放 得 比 “Z" 形 扫描 靠 前 。 图 13.19 比较 了 这 种 新 的 扫描 与 传统 





的 “Z" 形 扫描 。 





MPEG-2 的 可 分 级 性 ”至 此 所 描述 的 MPEG-2 的 功能 性 是 用 MPEG-2 的 不 可 分 级 语法 实 
现 的 , 它 是 MPEG-1 的 一 个 起 集 。 可 分 级 语法 用 层 来 构造 比特 流 。 基 本 层 可 以 使 用 不 可 分 级 


语法 ,因此 它 可 以 被 一 个 不 理解 可 分 级 语法 的 MPEG-2 终端 解码 。 基 本 的 MPEG-2 可 








分 级 性 工 


具 是 数据 分 割 ,SNR 可 分 级 性 ,空间 可 分 级 和 时 间 可 分 级 性 ( 见 11.1 节 )。 也 支持 这 些 基本 可 


分 级 性 工具 的 组 合 。 








7” PAR 交替 扫描 























































































































图 13.19 JA H.261,H.263 利 MPEG-1 中 已 经 知道 的 *Z" 形 扫描 ,在 MPEG-2 中 被 交替 二 ] 撒 加 以 
扩充 ,便于 隔行 岂 的 编码 ,这 些 块 在 水 平方 向 比 在 生 直 方 上 有 更 强 的 相关 性 


当 使 用 可 分 级 编 解 公 器 时 ,在 只 解码 基本 层 的 解码 器 中 可 能 出 现 漂移 。 当 用 于 运动 补 傍 
的 参考 图 像 在 编码 器 与 在 基本 层 解码 器 中 不 同时 ,就 会 产生 漂移 如 果 编 码 器 在 计算 基本 层 
的 参考 网 像 时 使 用 了 增强 层 的 信息 就 会 发 生 这 种 情况 。 在 每 个 I 帧 泪 移 被 自动 设置 为 零 。 如 
果 编 码 器 在 编码 基本 层 时 不 上 用 增强 层 的 任何 信息 ,漂移 就 不 会 出 现在 可 分 级 编 解 码 器 中 。 此 
外 , 解 包 器 解码 除 基 本 层 外 的 其 他 层 可 以 不 抬 较 高 层 的 数据 引信 到 较 低层 的 解码 中 。 

HETH: 数据 分 割 把 视频 比特 流 分 为 两 层 或 更 多 的 层 ， 由 编码 器 决定 哪些 语法 元 素 放 
在 高 优先 权 的 基本 层 ,哪些 放 在 低 优先 权 的 增强 层 。 一 般 , 在 低 优先 权 的 增强 层 中 传输 高 频 
DCT 系数 , 曾 所 有 的 头 、 辅 助 信息 、 运 动 撩 是 和 前 几 个 DCT 系数 在 高 优先 权 的 基本 层 中 传输 。 
如 果 可 利 几 两 个 传输 信道 , 则 数据 分 割 是 合适 的 。 由 于 数据 分 割 ,只 当 解 码 器 备 有 高 层 比特 流 
于 失 隐藏 器 时 ,解码 器 才能 解码 基本 层 。 这 种 隐藏 器 是 简单 的 ,只 需 把 丢失 的 增强 层 中 的 高 阶 
DCT FRE ANS, A 13.20 示 出 了 编码 器 和 解码 器 的 一 个 高 级 示意 图 。 数 据 分 割 功能 可 以 独 
立 于 编码 器 和 解码 器 实现 。 数 据 分 制 不 引起 任何 值得 注意 的 开销 。 然 而 ,在 容易 发 生 错误 的 
环境 中 它 的 性 能 可 能 比 其 他 的 可 分 级 性 方法 差 [13]。 显 然 ,如 果 我 们 只 解码 基本 层 ,我 们 将 会 
遇 到 漂移 问题 。 






















































































SUES 数据 分 市 解 码 器 

1 ~ nn! 

H | 1 下 
WA | 运动 补偿 d 1 |m w| | 人 z5 l 
C cri [7] E ja El | gp] sete 

| ampi i PARAE- | 

i ! tsa |i | 

| | i ' 


图 13.20 着 用 于 支持 两 级 服务 质量 ATM Doe EA A 


SNR 可 分 级 性 : SNR 串 分 级 性 足 一 种 频 域 方法 ,在 这 种 方法 中 ,所 有 的 层 用 相同 的 空间 分 
办 率 编码 ,但 通过 不 同 的 宏 鼎 其 化 步 长 实现 不 同 的 图 像 质 量 。 低 层 提 供 基 本 的 视频 质量 ,而 增 
强 层 携带 的 信息 当 加 入 到 低层 时 能 产后 输入 视频 的 较 高 质量 的 再 生 。 图 13.21 示 出 了 一 个 
SNR 可 分 级 编 代 器 , 它 包括 -个 不 可 分 级 的 基本 编码 器 。 经 过 变换 和 量化 后 ,基本 编码 器 把 
DCT 系数 送 入 SNR 增强 编码 器 。 增 强 编码 器 对 基本 编码 器 的 量化 误差 进行 再 量化 , 并 把 送 到 
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SINR 增强 解码 器 的 系数 反馈 回 基本 编码 器 ,基本 编码 器 把 它们 与 它 的 反 量 化 的 系数 相 加 并 送 
刘 编 码 器 的 反馈 环 由 。 由 于 增强 层 在 解码 器 中 的 反馈 ,对 于 任何 只 解码 基本 层 的 解码 器 都 会 
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图 13.21 SNR 可 分 级 编码 器 详 图 。 如 果 去 掉 增 强 编码 器 ,这 种 编码 器 就 默认 为 -个 标准 编码 器 


在 4~9 Mbps 的 总 比特 率 下 ,基本 层 和 增强 层 组 合 的 图 像 质量 比 用 不 可 分 级 编码 得 到 的 图 
像 质量 低 0.5~ 1.1dB。 所 然 ,就 基本 层 的 图 像 项 量 而 言 ,SNR 可 分 级 性 优 于 数据 分 割 [61, 13]。 

空间 可 分 级 性 ; 在 MPEG-2 中 ,空间 可 分 级 性 是 通过 联合 发 送 端的 两 个 完整 编码 器 和 接收 
端的 两 个 完整 解码 器 实现 的 。 基 本 层 是 以 低空 间 分 状 率 编码 的 ,使 用 返 动 补偿 DCT 编码 器 ， 
例如 H.261.MPEC-1 或 MPEG-2 (图 13.22)。 在 基本 编码 器 反馈 环 的 帧 存储 嚣 中 的 图 像 能 够 被 
空间 增强 编码 器 所 利用 。 增 强 编码 器 也 是 一 个 运动 补偿 DCT 编码 器 , 它 以 高 分 辩 率 编码 输入 
序列 。 它 使 用 低层 的 向 上 采样 的 输入 以 吉 强 它 的 时 间 预 测 。 增 强 层 编 码 器 中 的 预测 图 像 是 增 
强 编码 器 的 时 间 预 测 图 像 与 基本 编码 器 的 空间 预测 图 像 的 加 科 和 。 权 重 可 以 是 宏 块 级 自 适应 
的 。 这 种 编码 器 不 存在 漂移 问题 ,因为 编码 器 和 解码 器 都 不 把 增强 层 的 信息 引 人 基 本 层 。 在 
总 比特 率 4 Mbps 下 ,基本 层 和 增强 层 的 联合 图 像 质量 比 用 不 可 分 级 编码 得 到 的 图 像 质量 低 
0.75 ~1.5dB[13]. 

与 问 时 联播 ( 即 传送 两 个 独立 的 比特 流 ,一 个 具有 基本 层 分 辩 率 ,一 个 具有 增强 层 分 辩 率 ) 
相 比 较 ,空间 可 分 级 性 效率 提高 0.5~ 1.25dB[13,62]。 空 间 可 分 级 性 适用 于 需要 视频 标准 协 
局 工作 的 应 用 系统 ,而 且 编 码 效率 的 提高 (与 同时 联播 相 比 ) 能 够 浆 补 编码 器 和 解码 器 复杂 性 
所 带 来 的 额外 开销 。 

时 间 可 分 级 性 :在 时 间 可 分 级 性 中 ,基本 层 是 以 较 低 的 帧 率 用 不 可 分 级 编 解 码 器 编码 的 ,而 中 
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间 的 帧 可 以 被 编码 在 另 一 个 比特 流 中 ,用 第 一 个 比特 流 的 重建 作为 预测 [6]。MPEC-2 规定 只 能 用 
两 帧 进行 增强 层 图 像 的 预测 。 图 13.23 和 图 13.24 示 出 了 两 种 典型 的 结构 。 当 我 们 在 心里 去 除 图 
13.23 中 增强 层 与 基本 层 图 像 的 界限 时 ,我 们 注意 到 所 得 到 的 图 像 序 列 和 预测 排列 与 不 可 分 级 编码 
器 相似 ;如 果 基 本 层 只 用 I 帧 和 P 帧 ,就 等 价 于 不 可 分 级 编码 器 。 相 应 地 ,时 间 可 分 级 的 图 像 质量 只 
比 不 可 分 级 编码 器 低 0.2~0.3dB[13]。 在 图 13.25 中 ,我 们 看 到 增强 层 和 基本 层 的 编码 器 是 两 个 完 
整 的 编 解码 器 ,一 者 的 工作 速率 都 是 视频 序列 速率 的 一 半 。 因 此 ,时 间 可 分 级 性 的 计算 复杂 度 与 工 
作 在 输入 序列 全 频率 上 的 不 可 分 级 编码 器 类 似 ; 不 存在 漂移 问题 。 


空间 增强 编码 器 
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图 13.22 一 个 空间 是 分 级 编码 器 , 它 由 两 个 用 空间 内 播 滤波 器 连接 起 来 的 完整 的 编码 器 组 成 











图 13.24 增强 层 可 用 基本 层 和 增强 层 预测 的 时 间 可 分 级 性 的 结构 。 这 种 排列 特别 适用 于 体 视 视频 的 编码 
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时 间 增 强 编码 器 时 间 增强 解码 器 
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图 3.25 一 个 由 两 个 完整 的 编码 器 组 成 的 时 间 可 分 级 编码 器 ,增强 编码 器 用 基本 层 的 视频 


作为 预 训 的 附 如 参考 。 时 间 解 复 用 把 图 像 交替 地 送 给 基本 编码 器 和 增强 编码 器 





时 和 间 可 分 级 性 是 一 种 把 视频 分 配给 具有 不 同 计算 能 力 的 终端 (例如 移动 终端 和 台式 PC 
机 ) 的 有 效 方 法 。 另 一 种 应 用 是 体 视 视频 传输 ;其 中 左右 信道 被 分 别 作为 增强 层 和 基本 层 传 
送 。 这 已 在 12.5.1 节 中 讨论 过 了 。 


13.5.4 类 





全 部 的 MPEG-2 语法 涉及 范围 广泛 的 特性 和 参数 。MPRG-2 扩展 了 MPEC-1 的 受 级 东 参 数 
集 的 概念 ( 圾 13.4) ,定义 了 类 来 描述 解码 比特 流 所 需要 的 工具 ， 以 及 定义 了 级 来 描述 这 些 工 
具 的 参数 范围 。MPEG-2 起 初 为 视频 定义 了 5 个 类 ,每 “类 以 分 等 级 的 形式 添加 新 的 工具 。 后 


米 ,又 添加 了 两 个 不 适合 分 层 方案 的 类 。 


1. 简单 类 支持 [ 帧 和 了 帧 ,4:2:0 格式 以 及 不 可 分 级 性 。 目 前 它 未 在 市 场 上 使 用 。 
2. 主 类 增加 了 对 B 帧 的 支持 。 主 级 中 的 主 类 (MP@ML) 用 于 电视 广播 ,这 个 类 得 到 了 广 





泛 应 用 。 ， 
SNR 类 除了 主 类 的 功能 外 还 支持 SNR 可 分 级 性 。 目 前 它 未 在 市 场 上 使 用 。 
空间 类 支持 SNR 类 的 功能 并 增加 了 空间 可 分 级 性 , 目前 它 未 在 市 场 上 使 用 。 
. 高 类 支持 空间 类 的 功能 并 增加 了 对 4:2:2 格式 的 支持 。 这 个 类 过 于 复杂 而 难于 应 用 。 
.4:2;2 类 支持 演播 室 后 期 制作 以 及 用 于 存储 和 发 布 的 高 质量 视频 。 它 基本 上 是 把 主 类 


Aur w 














扩展 到 更 高 的 比特 率 和 质量 。 在 一 个 由 组 中 推荐 的 帧 顺序 是 IBIBIBIBI…… ,使 用 这 个 


类 的 设备 用 于 数字 演播 室 中 。 
多 视 类 能 够 并 行 地 传输 几 个 视频 流 , 因 此 能 够 立体 显示 。 这 种 功能 是 用 时 间 可 分 级 性 


| 

















实现 的 ,因此 使 主 类 解码 器 能 接收 其 中 的 一 个 视频 流 。 有 样机 。 


MPEG-2 为 每 个 类 定义 了 级 。 级 实际 上 定义 了 视频 帧 的 大 小 、 帧 率 和 图 像 类 型 ,为 解码 器 
的 处 理 能 力 提供 了 一 个 上 限 。 表 13.5 示 出 了 为 大 多 数 类 所 定义 的 级 。 在 家 13.5 中 只 有 两 栏 
(MP@ML 和 4:2:2@ML) 在 市 场 上 得 到 应 用 的 事实 有 力 地 表明 标准 化 是 一 个 一 致 局 意 的 过 程 
一 MPEG 必须 容纳 许多 个 体 的 愿望 ,在 不 为 主要 的 应 用 系统 ( 即 电视 生产 和 广播 ) 增 添 麻烦 
的 前 提 下 ,使 所 需要 的 专利 技术 形成 一 个 类 。 
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表 13.5 在 MPEG-2 中 的 类 和 级 
类 











简单 t SNR 空间 高 EH 4:2:7 
(P) (PB (LP,B) (P.B) (LP,B}) (1,P,B) (1,F,B) 
(4:2:0) (EO (4220) (4:2:0) Erh (4:2:0} (422205 














4:2:2} 4:2:2) 
- ` 像素 / 行 352 352 352 
iii 288 288 288 
ff fps 30 30 30 
Mpbs 4 4 8 
BRA 720 720 720 720 720 70 
Fratii 576 576 576 576 516 512/608 
= fps w 30 30 30 30 30 
Mpbs 15 15 15 20 25 50 
级 BHT 1440 1440 1440 1440 
isiti 1152 1152 1152 1152 
Ñ iso fs 如 5% oo wo 
Mpbs ca a) 80 100 
RR 1920 1920 1920 1920 
行 册 1152 1152 1152 1152 
i 
fp» 名 0 & wo 
Mpbs 8 60 130 300 





上 P,B: 可 允许 的 图 像 类 型 。 在 可 分 级 比特 流 情 况 下 ,最 大 比特 率 包 括 所 有 的 尽 ， 


13.6 RA MPEG-4 的 音 视频 对 象 编码 


设计 MPEG-4 标准 足 为 了 在 支持 传统 应 用 的 同时 ,满足 新 -- 代 高 度 交互 性 多 媒体 应 用 系 
统 的 需求 。 这 些 多 媒体 应 用 系统 除 高 效 编码 外 , 还 要 求 先进 的 功能 ,例如 各 个 对 象 的 交互 性 、 
内 容 的 可 分 级 性 和 高 度 的 差错 复原 性 。MPEG-4 提供 自然 的 和 合成 的 音频 .视频 以 及 图 形 的 基 
于 对 象 的 编码 |- 具 。 类似 于 在 它 以 前 的 标准 ,MPRG-4 标准 由 车 下 部 分 组成 ,主要 部 分 是 系统 、 
视频 和 音频 。MPRG-4 的 音频 和 宰 频 部 分 分 别 包括 白 然 和 合成 的 视频 和 言 频 的 编码 。 


13.6.1 系统 


MPCE-4 系统 能 够 把 音 视频 对 象 及 其 组 合 复 用 成 一 个 场景 。 图 13.26 示 出 了 一 个 在 接收 
和 宙 里 组 合 的 、` 并 在 显示 器 利 扬 贞 器 演播 的 场景 。 可 提供 鼠标 和 键盘 供用 户 输入 。 如 果 我 们 名 
略 用 户 输入 ,演播 就 像 在 常规 的 MPEG-1 或 MPEG-2 终端 上 一 样 。 然 而 , 音 视频 对 象 是 在 接收 
终端 被 组 合成 场景 的 , 而 本 章 中 所 讨论 的 所 有 其 他 标准 要 求 场 其 合成 在 编码 之 前 完成 。 园 
13.26 中 的 场景 是 在 本 地 的 三 维 举 标 系统 中 合成 的 。 它 包括 一 个 二 维普 景 一 个 场景 中 的 在 
坪 幕 上 播放 的 视频 个 作为 一 维 子 图 形 (sprite) 对 象 编码 的 伴随 右 声音 的 节 上 月 主持 人 以 及 尝 
芋 和 地 球 仪 这 翌 的 三 维 物体 。( 子 独 形 对 象 凡 一 个 用 仿 射 映射 来 映射 到 图 像 平 面 上 的 规 频 物 
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体 。)MPEC-4 提供 了 与 这 样 的 场景 相互 作用 的 工具 ,从 而 使 用 户 具有 交互 能 力 。 显 然 , 这 种 大 
于 对 象 的 内 容 描述 ,为 创建 交互 性 内 容 和 面向 观看 者 的 在 语言 .文本 广告 理念 等 方面 用 户 化 
的 演播 带 来 了 极 大 的 灵活 性 。 
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图 13.26 音 视频 对 象 在 MPEG-4 演播 的 接收 机 内 被 组 合成 一 个 场景 


图 13.27 示 出 了 MPEG-4 终端 的 各 种 功能 组 件 [1]， 


' 媒体 或 压缩 层 :这 是 执行 媒体 (如 音频 ,视频 、 图 形 以 及 其 他 适当 的 媒体 ) 解 码 的 系统 组 
件 。 媒 体 是 通过 基本 流 接口 从 同步 层 抽取 出 来 的 。 专 用 的 MPEG- 媒体 包括 一 个 二 进 
制 格式 场景 (BIFS) ,用 以 指定 场景 合成 和 图 形 内 容 。 另 一 个 专用 的 MPEG-4 媒体 类 型 
是 对 象 描述 符 (OD)。OD 包含 指向 基本 流 的 指针 ,类 似 于 URL。 基 本 流 被 用 来 传送 单 
独 的 MPEC-4 SEK, OD 也 包含 附加 信息 ,例如 服务 质量 参数 。 这 一 层 是 媒体 有 意识 ， 
而 传送 无 意识 的 , 即 它 不 考虑 传输 [67]。 
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. 同步 或 基本 流 朗 :这 个 系统 组 件 负责 各 个 压缩 媒体 的 同步 和 缓冲 。 它 接收 来 自传 输 层 
的 同步 层 (SL) 包 ,根据 基本 流 的 时 间 标 志 对 它们 解 包 , 并 把 它们 转发 到 压缩 层 。 一 个 
完整 的 MPEC-4 节日 以 不 同 的 基本 流传 送 每 一 个 媒体 类 型 。 如 果 涉 及 到 可 分 级 性 , 某 
些 媒体 可 以 在 几 个 基本 流 中 传输 。 这 一 层 是 媒体 无 意识 且 传送 无 意识 的 ; 它 通过 传送 
多 媒体 集成 框架 (DMIF) 应 用 接口 (DAT) 与 传送 层 对 话 。 除 了 通常 的 通话 建立 和 流 控制 
功能 外 DAT 也 能 使 每 个 流 的 服务 质量 需求 得 到 设置 。DAI 是 独立 于 网 络 的 [14]。 
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图 13-27 一 个 包括 传输 层 .同步 层 和 压缩 层 的 MPEG-4 终端 。MPEG4 不 对 实际 的 合成 和 显示 标准 化 


3. 传输 层 :传输 层 是 媒体 无 意识 和 传输 有 意识 的 。MPEG-4 没有 定义 任何 专用 的 传输 层 。 
MPEG-4 媒体 可 以 在 现 有 的 传输 层 (例如 RIP、.MPEG-2 传输 流 、H.223 或 ATM 等 ) 上 ,用 
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如 人 参考 文献 [31,21 中 说 明 的 DAI 传输 。 

MPEG-4 的 二 进 制 格式 场景 (BIFS) BIFS 场景 模型 是 虚拟 现实 模拟 语言 (VRML) 的 -一 个 
超 集 [21,11]。VRMIL 允许 用 虚拟 摄像 机 描述 和 显示 一 个 合成 场景 中 的 合成 三 维 物体 。 
MPE(G-4 在 三 各 方面 扩展 了 VRMI。 

. 定义 了 二 . 维 场 景 描述 ,以 便 把 二 维 音 祝 频 对 象 放 到 谋 幕 上 。 如 果 所 编码 的 媒体 只 是 不 

要 求 一 维 显示 开销 的 视频 流 , 这 是 重要 的 。 二 维和 三 维 场景 可 以 混合 起 来 。 网 13.28 

未 出 了 -个 在 屏幕 上 放 有 几 个 二 维 对 象 的 场景 图 。 对 象 的 位 置 用 变换 节点 定义 。 某 

些 对 象 是 需要 三 维 着 色 的 三 维 物 体 。 着 色 后 ,这 些 物体 被 作为 二 维 对 象 并 放 人 二 维 场 

景 中 。 

BIFS 用 它 的 基于 算术 编码 器 的 新 压缩 工具 能 进行 场景 和 图 形 物 体 的 描述 和 动画 。 

» MPEG-4 认识 到 人 脸 和 身体 的 特殊 重要 人 性。 它 引 人 了 特殊 工具 ,能 够 很 月 效 地 实现 虚 
拟人 的 描述 和 动画 。 
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图 13.28 具有 二 维和 二 维 组 件 的 场景 图 。 一 维 场景 图 只 需要 简单 地 用 “变换 到 二 维 " 节 
点 把 二 维 对 象 放 到 图 像 中 .三 维 物 体 被 着 色 , 然 后 把 它 放 到 三 维 层 节 点 定义 的 
屏幕 上 .对 象 之 问 的 相互 作用 可 以 用 由 一 个 节点 到 另 -个 节点 的 指针 定义 











13.6.2 音频 


MEPG-4 音频 定义 的 工具 [30,3] 可 以 合并 到 各 种 音频 编码 算法 。 由 -于 没有 找到 单 _. 的 纺 
码 样 式 履 盖 从 极 低 比特 率 语 音信 号 编码 到 高 质量 多 通道 音频 编码 的 整个 范围 ,因此 为 宽 范 围 
的 闫 期 应 用 定义 了 -系列 不 同 的 算法 以 实现 最 优 的 编码 效率 (图 13.29)。 可 分 级 音频 编码 器 
可 分 成 几 个 组 件 。 

在 其 最 低 码 率 下 ,使 用 MPEG-4 TIS 接口 (CTTSD 支持 文本 到 语音 (TTS) 合 成 器 。 

© 低 码 率 语 音 编码 (3.1 kHz 带宽 ) 是 基于 2 4 kbps 的 诺 波 矢 量 激励 编码 (HVXC) 编 码 器 。 
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o 电话 语音 (8 kHz 带宽 ) 和 宽带 语音 (16 kHz 带宽 ) 用 码 激励 线性 预测 (CELP} 编 码 器 以 3 850 
~ 23800 bps 的 码 率 进行 编码 。 这 个 CELP 编码 器 可 生成 具有 五 层 的 可 分 级 比特 流 。 

© 用 更 高 效 的 改进 的 MPEC-2 AAC 编码 器 对 每 通道 16 kbps 到 64 kbps 以 上 的 一 般 音 频 进 
行 编码 。 可 达到 明晰 的 音频 质量 。 
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图 13.29 MPEG-4 音频 支持 2~ 64 kbps fE SSE SAAR EA 


除了 音频 编码 外 ,MPEG-4 用 结构 化 音频 工具 集 定义 了 接收 机 的 音乐 合成 ; 它 为 统一 算法 
音乐 合成 .实现 可 分 级 性 和 音频 对 象 的 表示 提供 了 一 个 单一 的 标准 。 


13.6.3 基本 视频 编码 


许多 MPEG-4 的 功能 不 仅 需 要 访问 整个 图 像 序列 ,而 且 需 要 访问 整个 对 象 一 一 进 一 步 说 ， 
不 仅 需 要 访问 各 个 图 像 ,而且 党 要 访问 图 像 内 这 些 对 象 的 时 间 样 本 。 视 频 对 象 的 时 间 样 本 可 
以 被 认为 是 在 图 像 内 出 现 的 任意 形状 物体 的 瞬 像 。 与 图 像 相同 的 是 ,一 个 对 象 也 被 规定 为 一 
个 访问 单元 ;与 图 像 不 同 的 是 希望 它 具 有 语义 上 的 意义 。MPECG-4 通过 用 运动 .纹理 和 形状 对 
物体 独立 地 编码 ,使 与 视频 对 得 进行 基于 内 容 的 交互 成 为 可 能 。 在 解码 器 中 ,不同 的 对 象 综合 
成 一 个 场景 并 加 以 显示 。 为 了 实现 这 个 功能 ,需要 开发 较 高 级 的 句法 结构 。 一 个 场景 是 由 几 
个 视频 对 象 (V0) 组 成 的 。VO 具有 3 个 维 ( 二 维 加 时 间 )。 一 个 VO 可 由 几 个 视频 对 象 层 
(VOLAR EA VOL( 二 维 加 时 间 ) 表 示 VO 的 各 种 实例 。VOL 可 以 表示 可 分 级 比特 流 的 不 
同 层 或 VO 的 不 同 部 分 。VOL 的 一 个 时 间 星 间 称 为 一 个 视频 对 象 平面 (VOP)。 一 个 VOP 是 一 
个 和 矩形 视频 帧 或 它 的 一 部 分 。 可 由 其 纹理 变化 (一 组 亮度 和 色 度 值 ? 和 其 形状 完全 描述 。 视 频 
编码 器 把 运动 纹理 和 形状 编码 工具 用 于 VOP, 使 用 的 1,P 和 B 模式 类 似 于 MPEC-2 的 模式 。 
为 了 编辑 和 随机 访问 ,相继 的 VOP 可 组 成 一 个 视频 对 象 平面 组 ( GVOP)。 视 频 会 话 是 最 高 的 
语法 结构 ,可 由 几 个 VO 组 成 。 

图 13.30 中 的 例子 示 出 了 由 两 个 VOL 组 成 的 一 个 VOo VOLI 由 树 和 背景 级 成 ;YO12 表现 
一 个 人 。 在 这 个 例子 中 ,VOL! 由 两 个 分 离 的 VOP, 即 VOPI 和 VOP3 表示 。 因 此 ,VOLI 可 提供 
如 下 意义 的 基于 内 容 的 可 分 级 性 , 即 解码 器 由 子 资 源 限制 可 选择 不 解码 VOL 中 的 一 个 VOP, 
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YOL2 只 包含 一 个 VOP, 即 VOP2o VOP2 可 用 时 间 、 空 间或 质量 可 分 级 比特 流 表示 。 在 这 种 情 
BUF ,解码 器 可 再 一 次 决定 只 解码 VOL2 的 低层 。 图 13.30 中 的 例子 示 出 了 MPEG-4 支持 的 基 
于 内 容 的 访问 和 可 分 级 性 的 复杂 结构 。 然 而 ,所 给 的 例子 也 能 以 简洁 的 形式 用 三 个 VO 描述 。 
背景 . 树 和 人 可 编码 为 分 离 的 VO, 每 层 一 个 ,并 且 每 层 由 一 个 VOP 表示 。 这 些 VOP 被 分 别 编 
码 , 并 在 解码 器 中 合成 为 一 个 场景 。 





VOP? VOP3 VoL2 


图 13.30 基于 对 象 的 编码 需要 解码 器 把 不 同 的 视频 对 象 平面 合成 
一 个 场景 。 视 频 对 象 层 能 够 实现 基于 内 容 的 可 分 级 性 


为 了 和 弄 明白 MPEG-4 视频 编码 的 工作 .考虑 一 YOP 序列 。 把 MPEG-1/2 的 帧 肉 图像、 预测 
图 像 以 及 双向 预测 图 像 的 概念 扩展 到 YOP, 我 们 得 到 LVOP, P-VOP 和 B-VOP。 如 果 在 一 对 参 
考 VOP (I-VOP 或 P-VOP)} 之 问 使 用 两 个 相继 的 B-VOP , 则 得 到 的 编码 结构 如 图 13.31 所 示 。 


EHAE, 


前 向 预测 后 向 预测 














图 13.31 使 用 IYOP,P-VOP 和 B-VOP 的 预测 结构 的 后 子 


高 效 的 编码 工具 ”除了 因 MPEG-4 的 基于 对 象 的 性 质 所 引起 的 明显 改变 外 , 引 人 了 以 下 
的 工具 以 便 相对 于 MPEG-1 和 MPEG-2 提高 其 编码 效率 。 


© DC 预测 :与 MPEG-1/2 相 比 改 进 了 DC 预测 。 可 以 选择 当前 抉 的 前 一 块 或 者 选择 当前 块 
的 上 一 块 作为 预测 器 来 预测 当前 DC (A. 

© AC 预测 ;DCT 系数 的 AC 预测 在 MPEG-4 中 是 新 的 。 选 择 用 来 预测 DC 系数 的 块 也 用 于 
顶 测 一 行 AC 系数 。 如 果 预 测 器 是 前 一 块 , 则 它 的 第 一 列 的 AC 系数 用 于 预测 和 当前 块 
相同 位 置 的 AC 系数 。 如 果 预 测 器 是 来 自前 一 行 的 块 , 则 用 它 来 预测 AC 系数 的 第 一 
行 。AC 预测 对 于 具有 粗糙 纹理 、 对 角 边 缘 或 水 平 以 及 生 直 边缘 的 块 效 果 不 佳 。 在 块 级 
切换 AC 预测 的 通 断 是 所 希望 的 ,但 这 太 晶 贵 。 因 孙 判 决 是 在 宏 块 级 做 出 的 。 

© 交替 水 平 扫 描 : 这 种 扫描 被 添加 到 MPEC-2 的 两 种 扫描 中 (图 13.19)。MPEC-2 的 交替 
扫描 在 MPEG-4 中 被 称 为 交 鞠 垂直 扫描 。 交 蔡 水 平 扫描 是 由 镜像 垂直 扫描 得 到 的 。 在 
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决定 AC 预测 的 同时 选择 提 描 。 存 巾 前 一 块 进行 AC 预测 的 情况 下 ,选择 交替 垂直 扫 
E. EHE -RET AC 预测 的 情况 下 ,使 用 交替 水 平 扫描 。AC 预测 不 与 “Z" 形 扫描 
MAA. 

=H YLC:DCT 系数 的 编码 与 1.263 类 似 
0 个 运动 矢量 :人 允许 宏 块 的 由 个 运动 矢 蜂 。 做 法 与 H.263 类 做。 

无 约束 运动 矢量 ;允许 这 种 模式 。 与 H.263 相 比 ,可 以 使 用 宽 得 多 的 +2 048 像素 的 运 
ARH. 

TEJE: TAHERE LA Me De AY RR. WT Gon ,编码 器 传送 把 该 
图 像 的 -一 部 分 映射 到 屏幕 上 的 仿 射 映射 参数 。 通 过 改变 映射 ,解码 器 可 以 放大 和 缩小 
子 图 形 , 以 及 向 左 或 向 右 摇动 | 8]。 

全 同和 运动 补偿 :为 了 补偿 由 于 摄像 机 运动 .摄像 机 变焦 或 者 大 的 运动 物体 而 引起 的 全 局 
运动 ,全 局 运动 是 按照 公式 (5.5.14) 的 八 参数 运动 模型 进行 补偿 的 ( 见 5.5.3 W): 


te 
gr+h+l 


, dx + ey + f 


= (13.6.1) 
gx+hy+i 

全 局 运动 补偿 臣 改 善 大 的 全 局 运动 场景 的 网 像 质量 的 一 个 重要 工具 。 这 些 场 信 是 难以 

用 基于 块 的 运动 编码 的 。 与 共有 任意 运动 的 场景 不 同 ,人 眼 能 够 朝 踪 全 局 运动 情况 了 

的 细节 。 全 局 运动 补偿 有 助 于 改善 最 挑 风 的 场景 中 的 图 像 质量 。 

内 分 之 - -像素 运动 补偿 :由 分 之 -像素 运动 补偿 的 主要 目的 是 仪 以 / 

的 开销 来 提高 运动 补偿 方案 的 分 辩 率 ,得 到 更 精确 的 运动 描述 和 较 4 

测 梁 差 。 由 分 之 一 像素 运动 补偿 将 只 用 

偿 的 。 


如 已 指出 的 ,一 些 丁 具 类 似 于 在 H.263 中 开发 的 工具 。 与 在 4.263 中 一 样 ,MPEC-4 标准 
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\ 的 语法 和 计算 上 
` 的 需要 编码 的 预 
党 度 像 索 ; 色 度 像素 是 纹 半 像 素 精度 进行 神 





描述 了 重 春 块 运动 补偿 。 然 而 这 个 上 具 没 有 包括 在 低 何 MPEG-4 的 类 中 ,因为 它 对 于 大 的 图 





像 疏 寸 计算 复杂 ,并 日 对 于 高 质量 视频 提高 有 限 ; 换 句 话说 ,依从 MPpEG-4 的 解码 器 不 需要 实 


现 重 登 块 运动 补偿 。 


差错 复原 工具 ”除了 为 提 贞 编码 效率 所 开发 的 工具 外 ,在 MPEG 中 也 定义 了 一 系列 工 
只 来 增强 卜 缩 比特 流 对 传输 误差 的 复原 能 力 。 这 些 将 在 第 14 章 介绍 。 


13.6.4 基于 对 象 的 视频 编码 


为 了 使 编码 视频 其 有 基于 物体 的 功能 ,MPEG-4 允许 传送 视频 物体 的 形状 。 尽 管 MPEC 4 


没有 对 定义 或 分 割 视频 物体 的 方法 标准 


一 位 置 。MPEG-4 把 阿尔 法 图 定义 为 具有 
灰 度 阿尔 法 图 的 情况 下 ,我 们 有 另外 一 个 











4 


两 部 分 。 二 进 


上 ,但 定义 了 解码 算法 , 旦 隐 含 地 定义 了 括 述 形状 的 编 
BR. 形状 是 用 与 党 度 信和 号 有 相同 分 辩 率 的 阿尔 法 








描述 的 。 阿 尔 法 图 与 党 度 岁 像 处 于 同 
所 阿尔 法 图 定义 属于 物体 的 像素 。 在 











a ABTA US, EH 


8 bpp 定义 透明 度 。 阿 尔 法 图 扩展 了 


BR — VESEY 16 x 16 的 二 进 制 阿尔 法 图 称 为 一 个 二 进 制 阿尔 法 块 (BAB)。 下 面 ,我 们 说 














HH MPPC-4 为 基于 物体 的 视频 编码 所 使 月 


的 各 个 本 其 。 
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9 二 进 制 形状 ;基于 上 下 文 的 算术 编码 器 (如 10.1.1 节 所 描述 的 ) 被 用 来 编码 物体 的 边界 
块 。 边 界 块 包含 物体 像素 和 背景 像素 。 它 与 宏 块 处 于 同一 位 置 。 对 于 非 边 鼻 块 ,编码 


器 只 通知 宏 块 是 否 是 物体 的 一 部 分 。 





一 个 阿尔 法 图 序列 可 以 不 带 纹理 进行 编码 和 传 


输 。 或 者 ,MPEG-4 使 用 像 填充 和 DCT BR SA-DCT 之 类 的 工具 对 随 物体 传输 的 纹 还 进行 
编码 。BAB 是 用 帧 内 模式 和 帧 问 模式 编码 的 。 在 帧 间 模式 中 可 以 采用 运动 补偿 。 形 状 











运动 矢量 编码 用 与 纹理 编码 有 关 的 运动 矢 

















作为 预测 器 。 


日 填充 :为 了 用 基于 块 的 DCT 编码 BAB 的 纹理 ,背景 纹理 可 设置 成 任意 彩色 。 在 帧 内 模 





式 中 ,这 种 背景 彩色 对 解码 图 像 没 有 影响 i 
当前 块 的 运动 矢量 可 参考 前 一 个 参考 


























由 编码 器 进行 选择 。 然 而 ,为 了 运动 补偿 ， 


像 中 的 边界 块 。 参考 图 像 的 部 分 背景 像素 可 能 











位 于 当前 物体 的 范围 内 一 一 因此 ,这 些 背 景 


像 的 值 影响 预测 坏 。MPPG-4 用 填充 (如 


10.2.1 节 搞 述 的 ) 来 定义 在 预测 中 用 到 的 背景 像素 。 








© 形状 自 适应 DCT: 编 码 器 可 选择 用 SA-DCT 对 
运动 补偿 预测 图 像 的 填充 仍然 是 需要 的 。 























BAB 的 纹理 进行 编码 (10.2.2 节 )。 然 而 ， 


© 灰 度 形状 编码 : MPEG 4 允许 传送 任意 的 阿尔 法 图 。 因 为 阿尔 法 图 是 用 8 比特 定义 的 ， 
所 以 用 与 亮度 信号 -- 样 的 方法 对 它们 进行 编码 。 
图 13.32(a) 示 出 了 一 个 基于 物体 的 MPRG-4 视频 编码 器 的 方 框图 。MPEC-4 采用 两 种 类 
型 的 运动 矢量 :在 图 13.32 中 ,我 们 把 用 来 补偿 纹理 运动 的 传统 的 运动 矢量 称 为 纹理 运动 ;把 
描述 物体 形状 位 移 的 适 动 矢量 称 为 形状 运动 。 形状 运动 矢量 可 能 与 BAB 相关 联 。 图 像 分 析 
估计 当前 YOP 世 ， 相对 于 参考 VOPw 4 的 纹理 和 形状 运动 。 参数 编码 对 参数 进行 预测 编码 。 
参数 被 传送 并 解码 ,而 新 的 参考 VOP 存 情 在 VOR 存储 器 中 。 由 编码 任意 形状 的 视频 物体 所 5| 
起 的 复杂 度 的 增加 在 图 13.32(h) 中 变 得 很 明显 。 首先 ,形状 运动 矢量 和 形状 像素 被 编码 。 形 























状 运动 编码 器 通过 分 析 潜在 有 损 编 码 的 兹 状 参数 知道 哪些 
参考 VOP 像 前 面 所 描述 的 那样 被 填充 。 预 测 误差 





域 。 然 后 每 个 宏 块 用 DCT 进行 编码 。 
13.6.5 静止 纹理 编码 





E 动 失 量 要 编码 。 为 了 纹理 汗 测 ， 











原始 形状 参数 填充 ,以 确定 将 要 填充 的 区 





MPEG-4 所 支持 的 功能 之 …- 是 将 静止 纹理 映射 到 二 维 或 二 维 表面 上 。MPEC-4 视频 提供 了 
一 种 编码 静止 纹理 信息 的 分 离 模 式 来 支持 这 种 功能 。 可 以 想像 ,与 纹理 映射 的 综合 场景 进行 








交互 操作 的 应 用 系统 需要 连续 的 可 分 级 性 。 








为 了 编码 静止 纹理 图 ,DWT 编码 被 选择 ,因为 它 在 保持 良好 的 编码 性 能 的 同时 提供 了 在 
空间 和 质量 可 分 级 性 方面 的 灵活 性 (11.3.1 节 )。 在 DWT 编码 中 ,纹理 图 图 承 首先 经 一 维 可 分 
离 的 分 解 (用 Daubechies 抽 头 的 双 正 交 涨 波 器 ) 进 行 分 解 。 接 普 ,最 低频 带 的 系数 被 量化 ,并 用 
隐 含 的 预测 (类 似 于 在 帧 内 DCT 编码 中 所 用 到 的 ) 和 算术 编码 进行 需 测 编码 。 然后 较 高 频带 
系数 用 多 级 量化 , 零 树 扫描 和 算术 编码 进行 编码 。 产生 的 比特 流 是 尖 活 排列 的 ,容易 导出 多 屋 








空间 和 质量 可 分 级 性 。 





这 个 算法 被 推广 到 编码 任意 形状 的 纹理 图 。 为 了 使 形状 的 扫描 行 适应 DWT 编码 ， 
MPEG-4 采 用 头 和 尾 边 界 扩展 来 镜像 图 像 信号 (11.3.1 节 )。 
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几 3. 了 2 。 个 编码 什 意 形状 视频 物体 的 基于 物体 的 MPEG-4 视频 编码 器 :(a) 痊 体 方块 图 ;(b) 参 数 编码 方块 图 


13.6.6 网 格 动画 


基于 网 格 的 物体 胡 示 对 许多 功能 是 非常 有 用 的 ,例如 动画 内 容 操 作 ARRS RG 
成 视频 的 融合 等 [68]。 

4113.33 示 出 了 一 个 网 格 编码 器 以 及 它 与 纹理 编码 大 的 结合 。 当 一 个 白 然 的 或 合成 的 视 
频 物 体 初 次 出 现在 场景 中 时 ,网 梅 编码 器 为 它 生成 一 个 二 维 的 甘于 网 格 的 友 示 。 物 体 由 三 角 
形 小 块 拼接 而 成 ,产后 一 个 初始 的 二 维 网 格 { 图 13,.34)。 当 VOP 在 场景 中 移动 时 ,这 个 初始 网 
格 的 节点 就 在 二 维 活动 起 来 。 或 者 ,节点 的 运动 也 可 由 为 一 个 信 源 激活 。 视 频 物体 的 一 维 运 
动因 此 林 由 网 格 节点 的 运动 矢量 紧凑 地 表示 。 通过 对 应 于 各 个 小 块 的 纹理 图 经 仿 射 变 换 从 一- 
个 VOP 变 成 另 一 个 VOP 进行 扭曲 来 实现 运动 补偿 。 用 于 映射 到 物体 网 格 模型 或 脸 部 线 杠 模 
型 上 的 纹理 是 由 视频 或 静止 图 像 得 到 的 。 尽 管 网 格 分 析 不 是 标准 的 一 部 分 ,但 MPEG-4 定义 
丁 二 维 网 格 及 其 节点 运动 的 编码 。 另 外 ,把 纹理 映射 到 网 格 上 可 用 MPEG-4 描述 。 
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图 13.33 -个 支持 二 维 网 格物 体 的 编码 器 /解码 器 的 简化 结构 、 视 频 编码 器 提供 网 格物 体 的 纹理 图 





图 13.34 为 视频 物体 “乌龟 "设计 的 基于 内 容 的 网 格 


13.6.7 脸 和 身体 动画 


希望 支持 脸 和 身体 动画 的 MPEC-4 终端 包括 一 个 默认 的 脸 和 身体 模型 。MPEG-4 的 系统 
部 分 提供 了 脸 和 身体 定义 参数 (FDP,BDP) 来 定制 脸 或 身体 模型 ,或 用 从 编码 器 下 载 的 模型 来 
代替 它 。 场 景 (包括 三 维 几 何 体 ) 和 脸 / 身 体 模型 的 定义 可 用 BIFS[23] 传 送 给 接收 机 。 图 13.35 


示 出 了 一 个 解码 器 按照 BIFS 流 建立 的 场景 图 

















。 身 体 节点 定义 身体 的 位 置 。 它 的 子 BDP 用 具 


有 关节 的 骨架 ,表面 以 及 表面 特性 来 描述 身体 的 外 形 。 身 体 变形 表 (bodyDefTable) 节 点 描述 模 


型 是 如 何 作为 身体 动画 参数 的 函数 变形 的 。 
并 把 脸 变 形 定义 为 脸 动画 参数 (FAP) 的 函数 。 
动画 参数 (BAP) 使 这 些 模型 动 起 来 [24]。 





图 13.36 示 出 了 左 眼 既 眠 的 两 个 阶段 ( 


答 节点 是 身体 节点 的 子 节点 。 它 包含 脸 几 何 形状 
MPEG-4 的 视频 部 分 定义 了 如 何 用 FAP 和 身体 














上 中 性 阶段 ), 它 是 用 简单 的 动画 结构 生成 的 


[68], EPERE HRR H THIRRE FAP19 的 幅度 向 下 运动 时 , 它 的 一 个 顶点 的 理想 运 
动 。 在 这 个 例子 中 ,FAP19 的 脸 变 形 表 用 两 个 线性 线段 近似 日 标 轨迹 ,该 顶点 实际 上 是 随 着 





FAP 19 的 增加 在 这 条 轨迹 上 运动 的 。 
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| 一 FBA 流 





BIFS 流 


图 13.35 一 个 以 BERS 流传 输 的 描述 人 体 的 场 共 图 。 节 点 身体 和 脸 是 用 FBA 
踊 的 FAP 和 BAP 激 活 的 -BDP 和 PDP 节 点 及 其 子 节点 描述 患 拟 的 人 


FAP 19 





图 13.36 左 服 的 中 性 状态 ( 左 ) 和 及 眼 的 两 个 变形 动画 阶段 (FAP19)。FAP 定 义 负 
7 方向 上 眼 瞪 的 运动 ; 脸 变形 表 定 义 * 和 x 方 向 上 上 腿 险 的 一 个 顶点 的 运动 
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脸 动画 ”定义 了 三 组 脸 动 画 参 数 [68]。 首 先 ,为 低 水 平 的 脸 动 男 定 义 了 -- 组 66 fh FAP, 
包括 头 和 眼 的 旋转 以 及 关于 嘴 .耳鼻 和 眼眉 变形 的 特征 点 的 运动 (图 10.20)。 由 于 这 些 参 数 
都 是 独立 于 模型 的 ,它们 的 幅 值 是 按照 实际 动画 模型 的 比例 确定 的 。 第 二 ,为 高 水 平 动画 定义 
了 一 组 主要 的 脸 部 表情 ,例如 高 兴 、 悲 伤 惊 讶 以 及 大 恶 。 第 三 ,对 于 讲话 动画 , 14 个 口 型 定义 
了 对 应 于 音素 的 嘴 的 形状 。 这 些 口 型 被 传送 到 解码 器 ,或 者 由 终端 的 TIS 合成 器 的 音 索 导 出 。 

FAP 被 线性 前 化 并 用 算术 编码 进行 炉 编 码 。 或 者 ,一 个 16 个 FAP 的 时 间 序 列 也 可 以 用 
DCT 编码 。 由 于 高 效 编码 ,只 需要 大 约 2 kbps 就 可 实现 生动 的 脸 部 表情 。 

身体 动画 ”BAP 控制 身体 框架 模型 中 的 独立 的 自由 度 来 生成 身体 部 分 的 动画 [4] 。 与 脸 
的 情况 一 样 ,用 BAP 适 控 终端 中 的 身体 模型 可 实时 地 实现 硼 棚 如 生 的 身体 场景 ,而 不 用 每 一 
帧 都 传送 身体 的 绘画 和 视频 的 细节 。BAP 将 根据 不 同 身体 模型 的 身体 姿势 和 动作 ,生成 相当 
类 似 的 高 水 平 的 结果 ,也 不 必 向 解码 器 传送 模型 。 在 BAP 集 内 总 共有 186 个 预定 义 的 BAP, 5 
外 还 有 一 个 包括 110 个 用 户 自 定义 BAP 的 扩展 BAP 集 ， 每 一 个 预定 义 的 BAP 对 应 于 连接 两 
个 身体 部 分 药 闫 节 中 的 … 个 自由 度 。 这 些 关节 包括 脚趾 , 躁 ,号 . 臂 , 峭 骨 、 肩 锁骨、 肘 、 腕 和 于 
指 。 扩 展 BAP 是 为 与 身体 变形 表 有 关 的 附加 动画 特性 提供 的 [1], 例 如 衣服 动画 ,或 人 体 非 肯 
架 部 分 的 身体 各 部 分 的 动画 。 

BAP 按照 对 身体 姿势 的 影响 分 成 若 于 组 。 这 种 分 组 方案 提供 了 许多 优点 。 首 先 , 它 允 许 
我 们 通过 选择 一 个 BAP 子 集 来 调整 动画 的 复杂 度 。 例 如 , 兰 骨 中 BAP 的 总 数 是 72, 但 通过 只 
选择 一 个 质 定 义 的 子 集 可 得 到 相当 简单 的 模型 。 其 次 ,假设 不 是 所 有 的 运动 都 包含 所 有 的 
BAP, 那 么 可 以 只 传送 起 作用 的 BAP, 以 便 品 闭 减少 所 需要 芍 比特 府 。 类 似 于 FAP, BAP 的 编码 
采用 算术 编码 。 

语音 合成 一 体 化 ”MPEC-4 认识 到 TIS 对 于 多 媒体 应 用 的 重要 性 ,为 专 有 的 TTS 提供 了 一 
TRAGER AMAR, TTS HEA ASCH 文本 和 可 选 的 二 进 制 形式 的 韵律。 解码 器 按照 为 
TIS 合 成 器 定义 的 接口 解码 文本 和 韵律 信息 。 合 成 器 生成 一 个 语音 样本 并 把 它 传送 给 复合 
器 。 复 合 器 为 用 户 提供 音频 和 (如 果 有 必要 的 话 ) 视 频 。 

图 13.37 示 出 了 语音 驱动 的 脸 部 动作 的 结构 ,可 同步 地 显示 合成 的 语音 和 讲话 的 头 部 。 
TIS 的 第 二 级 输出 接口 把 合成 语音 的 音素 以 及 每 个 音素 的 起 始 时 间 和 持续 时 间 信息 送 给 音素 
/书签 -FAP 转换 器 。 该 转换 器 把 音素 和 定时 信息 转换 成 FAP, 脸 显示 器 用 它 实现 脸 模型 的 动 
画 。 除 了 音素 外 ,合成 器 识别 文本 中 的 书签 ;将 相关 的 非 语音 FAP( 如 高 兴 ) 传 送 给 脸 显 示 器 。 
书签 的 定时 信息 可 由 它们 在 合成 语音 中 的 位 置 导 出 。 由 于 脸 部 动画 是 完全 由 输入 到 TIS 的 文 
本 驱动 的 ,所 以 向 解码 器 传输 FAP 流 是 可 选 的 。 而 且 实 现 了 同步 ， 为 讲话 的 头 部 是 由 异步 
的 专 有 TIS 合成 器 驰 动 的 。 


13.6.8 类 


MPEG-4 开发 了 一 个 详细 的 类 结构 (图 13.38)。 尽 管 可 选择 一 个 应 用 系统 实现 一 个 以 上 的 
MPRC-4 类 ,然而 MPEG- 终端 必须 能 实现 几 个 类 。 需要 一 个 对 象 描述 符 类 ,以 便 能 够 传输 
MPEC-4 流 并 在 终端 识别 这 些 流 。 场 景 描述 类 提供 把 音 结 、 视 频 或 者 图 形 对 象 组 合成 一 个 场景 
的 工具 。 二 维 场景 描述 类 只 能 放置 二 维 视频 对 象 。 更 高 的 类 可 提供 更 多 的 功能 。 必 须 实现 媒 
体 类 ,以便 在 终端 上 显示 实际 内 容 。MPEG-4 支持 作为 媒体 的 音频 、 视 频 和 图 形 。 已 经 定义 了 
儿 个 视频 类 ;我 们 在 这 里 只 列 出 它们 的 一 个 子 集 ,并 说 明 它 们 的 主要 功能 : 
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` 图 13.37 脸 部 动画 的 MPEG-4 结构 ,允许 脸 部 表情 与 一 个 专 有 文本 到 语意 合 成 器 生成 的 语音 同步 
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图 13.38 一 个 MPEG-4 终 端 必须 为 每 一 个 对 象 播 述 符 类 ,场景 描述 类 
利 媒 体 类 至 少 实现 -- 类 。 这 里 没有 列 出 一 组 内 所 有 的 类 


日 简单 类 ;简单 类 是 为 低 复 


第 二 个 用 途 是 把 极 低 复杂 


对 象 ,这 些 对 象 在 最 低级 


杂 度 应 用 需求 建立 的 。 第 一 个 用 途 是 移动 (音频 ) 视 频 业务 ， 
度 的 视频 放 到 因特网 上 。 它 最 多 在 一 个 场景 中 支持 四 个 答 形 
具有 QCIF 图 像 的 最 大 尺寸 。 简 单 类 共 分 三 级 ,比特 率 为 4 ~ 


384 kbps。 它 提供 如 下 工具 :I- VOP R P- VOP. AC/DC 预测 、 四 个 运动 矢量 \、 无 约束 运 
动 矢量 , 片 再 同步 数据 分 割 以 及 可 逆 的 YLC。 这 个 类 能 解码 没有 使 用 任何 H.263 可 选 


附件 的 H.263 视频 流 。 


简单 可 分 级 类 ;这 个 类 把 对 B 帧 时 间 可 分 级 性 和 空间 可 分 级 性 的 支持 增加 到 简单 类 














中 。 它 适用 于 那些 由 于 比特 率 或 解码 器 资源 限制 而 提供 一 级 以 上 服务 质量 的 应 用 系 











统 , 如 因特网 应 用 和 软件 
o 先进 的 实时 简单 (ARTS) 


解码 。 
类 :这 个 类 扩展 了 简单 类 的 能 力 ,用 一 个 后 向 信道 提供 矩形 视 


频 对 象 的 较 复杂 的 差错 保护 ;这 个 后 向 信 遵 把 传输 差错 由 解码 器 通知 给 编码 器 ,使 编码 


器 能 为 最 近 编码 的 图 像 








P 受 到 影响 的 部 分 传输 帧 内 模式 的 视频 信息 。 它 适用 于 实时 编 
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o 先进 的 简单 类 :这 一 类 通过 增加 对 四 分 之 -一 像素 运动 补偿 、 全 局 运动 补偿 和 B- VOP 的 
支持 ,提高 了 相对 于 简单 类 的 编码 效率 。 

© 细 间 隅 度 可 分 级 类 :这 一 类 人 允许 多 达 八 个 可 分 线 屋 ,使 传送 质量 能 很 容易 地 适应 解 公 资 
源 。 当 网 络 支 持 不 同 oS 级 时 , 较 高 层 可 以 用 比较 低层 低 的 优先 权 传送 。 增 强 层 是 用 
DCT 系数 的 比特 面 编码 器 编码 的 。 它 可 以 把 简单 类 或 先进 的 简单 类 作为 基本 层 使 用 。 

© 核心 类 : 除 简 单 类 的 工具 外 ,这 -类 允许 可 分 级 的 静止 纹理 .B 帧 ,二 进 制 形状 编码 ,以 
及 夭 形 和 任意 形状 物体 的 时 间 可 分 级 性 。 它 适用 于 较 高 质量 的 交互 式 业务 ,把 优良 的 
图 像 质 量 与 有 限 复杂 度 相 结合 ,并 且 支 持 任意 形状 的 物体 。 这 个 类 也 能 够 支持 移动 广 
插 业 务 。 级 的 最 大 比特 率 是 384 kbps, 级 2 是 2 Mbps。 

外 核心 可 分 级 视频 类 :这 一 类 把 基于 物体 的 SNR 以 及 空间 和 时 间 可 分 级 性 增加 到 核 
心 类 。 

e 二 类 : 主 类 增加 了 对 隔行 视频 、 厌 度 级 阿尔 法 图 以 及 地 图 形 的 支持 。 主 类 是 为 广播 业务 
的 央求 建立 的 ,可 处 理 逐 行 和 隔行 资料 。 它 把 最 高 质量 与 采用 灰 度 编码 的 任意 形状 对 
象 的 多 功能 性 结合 起 来 。 最 高 级 在 38 Mbps 的 最 大 总 码 率 下 接收 多 达 32 个 对 象 。 

先进 的 编码 效率 {ACE) :这 个 类 以 传输 比特 率 低 于 1 Mbps 的 娱乐 视频 为 目标 。 然 而 , 根 
据 规定 , 它 加 入 到 主 类 中 ,以 扩展 其 比特 率 范 围 并 增加 四 分 之 一 像素 运动 补偿 、 全 局 运 
动 补偿 和 形状 自 适应 DCT 的 工具 。 这 个 类 不 支持 子 图 形 。 

o 简单 演播 室 类 :这 个 类 只 对 非常 高 的 质量 支持 1- VOP, 比 特 率 高 达 1 200 Mbps。 每 个 
VOP 可 以 是 任意 形状 的 ,并 有 几 个 与 之 相关 的 阿尔 法 平面 。 支持 4:0:0,4:2:2 和 4:4:4 
格式 .在 分 辩 率 上 适合 HDTV 和 数码 像 机 。 

o 核心 演播 室 类 :这 个 类 把 P- VOP 加 到 简单 演播 室 类 中 ,从 而 使 这 个 类 更 复杂 ,但 是 也 
更 有 效 。 

为 脸 .身体 和 网 格 动画 定义 了 更 多 的 类 。 在 写本 书 时 ,判断 哪些 类 将 最 终 在 产品 上 实现 还 











为 时 过 早 。 第 一 代 原型 只 实现 简单 类 和 先进 的 简单 类 ,而 它们 的 目标 应 用 系统 是 移动 视频 遂 


信和 领域 。 
13.6.9 视频 质量 的 主观 评价 


MPEG-4 引 人 了 新 的 功能 (如 基于 对 象 的 编码 ), 并且 声称 能 提高 编码 效率 。 月 
方法 验证 了 其 正确 性 。 用 户 感觉 的 视频 质量 是 用 平均 意见 分 (MOS) 度 量 的 [70]。 
出 了 编 倘 效率 的 主观 测试 结果 ,比较 了 比特 率 为 384 ~ 768 kbps 时 MPEG-4 与 MPE 





主观 测试 的 
图 13.39 未 
G-1 的 视频 。 











这 些 结果 表 MPEC-4 在 这 些 比特 率 下 性 能 显著 高 于 MPEG-1。MPEC-4 视频 是 月 


主 类 的 工具 








编码 的 (13.6.8 节 )。 在 网 13.40 中 ,我 们 看 到 编码 效率 的 提高 是 由 于 ACE 类 的 阳 


加 工具 引起 


的 (13.6.8 节 )。768 kbps 码 率 下 的 ACE 类 相当 于 主 类 在 1 024 kbps 码 率 下 所 提供 的 质量 。 这 
使 ACE 类 对 于 通过 有 线 调制 解 调 器 或 数字 用 户 线路 (DSL) 传 送 电影 到 家 中 很 具有 咀 引 力 。 进 
步 的 主观 测试 表明 ,MPEG-4 中 基于 对 象 的 功能 与 基于 帧 的 视频 相 比 不 降低 编码 的 视频 对 象 








的 主观 质量 一 一 也 就 是 说 ,因为 不 编码 视频 对 象 以 外 的 像素 所 节省 的 比特 弥补 了 了 














形状 编码 所 


花费 的 比特 、 因 此 , MPEG-4 的 先进 工具 使 基于 内 容 的 视频 表示 不 增加 视频 编码 的 比特 率 。 
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编码 效率 ， 革 于 帧 的 中 等 比特 率 
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图 13.39 ”MPEG4 $985 MPEG) 相 比 的 主观 质量 。W4 x 是 工作 在 x kbps 速 


率 下 的 MPFC-4 编 码 器 ;M1_x 大 工作 在 给 定 速率 下 的 MPRC-: 编 码 器 [27] 


编码 效率 ， 基 于 帧 的 高 比特 率 
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图 13.40 MPEG-4 ACE tj MPRG-4 4: 4H 
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七 的 主观 质 最，M _ x 是 按照 主 类 工作 在 x kbps ik 


下 的 MPEG-4 编 码 器 ;M+ _ * 大 按照 ACE 类 工作 在 给 定 速 率 下 的 MPFG-4 编 玛 器 [26] 


13.7 视频 比特 流 语法 


如 前 面 提 到 的 ,视频 编码 标准 定义 视频 
们 也 规定 如 何 解 析 和 解码 比特 流 以 牛 成 解 


起 灵活 的 -这 是 通过 -个 具有 不 同 层 的 分 层 结构 实现 的 ,每 


同 的 多 和 纤 荔 能 (去 13.6)。 大 多 数 的 头 可 在 上 


比特 流 的 语法 和 语义 ,而 木 是 实际 的 编码 方案 。 它 
E 缩 的 视频 信号 。 为 了 支持 不 同 的 应 用 ,语法 必须 
层 以 一 个 头 开 始 。 每 层 执行 不 
5 特 流 中 被 惟一 地 识别 ,因为 它们 以 - .个 起 始 码 开 








始 ; 这 个 得 中 一 长 中 零 C(MPEC-2 中 23 个 零 ) ,后 眼 一 个 1 和 一 个 起 始 秽 识别 符 。 图 13.41 可 


视 化 了 MPEG-2 的 分 层 结构 。 在 以 下 清单 中 


,我 们 描述 了 分 层 比 竺 流 结构 的 元 素 : 
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1. 序列 :视频 序列 以 序列 头 开 始 , 且 可 以 包含 附加 序列 头 。 它 包括 一 个 以 上 的 图 像 组 ,以 


一 个 序列 结束 码 作为 结束 。 


序列 头 及 其 扩展 包含 基本 的 参数 ,如 图 像 尺寸 图像 幅 型 


比 \ 图 像 速率 以 及 其 他 全 局 参数 。 视 频 对 象 层 (VOL) 的 头 具有 相同 的 功能 ,然而 它 携带 
MPEC-4 解码 器 所 需要 的 附加 信息 ,以 便 把 任意 形状 的 视频 对 象 组 合 为 一 个 要 显示 的 


视频 序列 。 








视频 序列 — 





























图 13.41 MPEG-2 比 





特 流 从 视频 序列 层 到 块 级 的 形象 化 的 分 层 结构 , 示 


出 的 是 亮度 分 量 . 每 一 层 也 有 两 个 与 它 相 联系 的 色 度 分 量 











于 13.6 用 于 各 种 视频 编 色 标 准 中 的 语法 层次 

语法 层 功能 标准 
序列 (SC) 定义 整个 视频 序列 H.261/3, MPEG-H/2 
VOL(SC) 定义 整个 视频 对 象 MPEG-4 
GOP(SC) 能 够 随机 访问 视频 流 MPEG-1/2 
GYOP(SC) 能 够 戎 机 访问 视频 流 MPEG4 
图 像 (SC》 基本 的 编码 单元 H.261/3, MPEGL/2, 
‘vor(SC) 基本 的 编码 单元 MPEC4 
GOB(SC) 再 同步 ,刷新 和 图 像 中 的 差错 恢复 H.261/3 
ACSC) 再 同步 HB PERE MPEG-1/2 
视频 包 (SC) 再 同步 和 图 像 中 的 差错 恢复 MPEG 
JERS 运动 补偿 和 形状 编码 单元 H.261/3, MPEG-1/2/4 
R 变换 和 补偿 单元 H.261/3, MPEG1/2/4 

“每 一 层 以 头 作 为 开始 。 语 法 岩 中 的 SC 表示 该 层 的 头 以 起 始 码 作为 开始 。 


2. 图 像 组 :GOP 是 一 个 头 后 跟 一 系列 图 像 ,意图 是 允许 随机 访问 序列 ,快速 搜索 和 编辑 。 
因此 ,GOP 中 的 第 一 个 图 像 是 幢 内 编码 图 像 (1 图 像 )。 它 的 后 面 是 前 向 预测 编码 图 像 
CP 图像) 和 可 选 的 双向 预测 图 像 (B 图 像 ) 的 一 个 排列 。GOP 头 也 包含 用 于 同步 和 编辑 
的 时 间 码 。GOP 是 编辑 和 随机 访问 的 基本 单元 ,因为 它 的 编码 不 依赖 于 前 面 的 COP 和 


后 继 的 GOP, TE MPEG-4 4 























F ,GOP 的 功能 是 由 视频 对 象 平面 组 (GOVOP) 提 供 的 。 由 于 


H.261 和 H.263 主要 是 为 交互 式 应 用 设计 的 ,所 以 它们 不 用 COP 的 概念 。 然 而 ,编码 
器 可 随时 选择 传送 一 个 5 图像, 从 而 实现 随机 访问 和 简单 的 编辑 。 

3. 图 像 :图 像 是 视频 序列 的 基本 编码 单元 。 图 像 由 表示 亮度 (Y) 和 两 个 色 度 (Cb 和 Cr) 值 
的 三 个 矩形 矩阵 组 成 。 图 像 头 措 明 图 像 类 型 (1,P,B) 图 像 结构 ( 场 / 帧 ) 以 及 可 能 的 其 
他 参数 (例如 运动 矢量 范围 )。VOP 是 MPEG-4 的 基本 编码 单元 。 它 包含 视频 对 象 边框 
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的 尺寸 。 
每 个 标准 都 把 图 像 分 成 宏 块 组 ，H.261 和 有 .263 用 固定 的 宏 块 结构 ,而 MPEG-1/2 允许 灵 
结构 。MPEGC-4 把 可 变数 量 的 安 块 安排 成 一 组 ， 


4, GOB;H.261 和 H,263 把 图 像 分 成 GOB, 每 个 GOB 包括 三 行 宏 块 ,每 个 CO8 行 中 有 11 
PEER. COB KEX COB 在 图 像 内 的 位 置 。 可 以 为 每 个 GOR 定义 ~ -个 新 的 量化 器 步 
长 .在 处 理 差 错 中 COB 是 很 重 改 的。 如果 比 特 流 含有 一 个 差错 ,解码 器 可 姚 到 下 一 
个 GOB 的 于 始 ,从 而 把 比特 益 错 的 扩 艇 限制 在 当前 帧 的 -个 COB 之 内 。 然 而 , 当 戎 测 
下 一 帧 时 ,差错 扩散 可 能 发 生 。 

5. 片 :MPEG-1,MPRG-2 fl H.263 附件 K 把 GOB 的 概念 推广 到 可 宰 结构 ， 片 把 几 个 相继 
的 宏 抉 组 成 一 个 单元 。 片 的 尺 填 可 以 变化 ， 在 MPEG- 由 , 片 可 以 与 一 幅 图 像 一 样 大 。 
然而 在 MPEG-2 中 ,图像 的 每 -个 寄 块 行 至 少 启动 一 个 新 的 片 。 比 特 流 中 共有 较 多 的 
片 多 许 较 好 的 差错 隐藏 ,代号 鉴 花 温 比特 ,而 这 些 比 特 本 来 是 可 以 用 来 提高 图 像 质 
芷 的 

6. 视频 包头 ;MPEG-4 所 用 的 视频 包 方法 是 基于 在 整个 六 放下 相信 加 二 的 让 加 区 人 
的 。 换 名 话说 ,视频 包 的 长 度 并 不 基于 宏 块 的 数 基 ,而 中 基于 包 中 所 含 的 比特 数 。 如 
拱 当 前 视频 包 中 所 含 的 比特 数 超过 编码 器 所 规定 的 闭 值 ,那么 在 下 - -个 宏 块 的 开始 处 
航 要 建立 一 个 新 的 视频 包 。 这 样 ,与 较 刚性 的 片 和 COR 结构 的 情况 相反 ,传输 差错 对 
闪 有 较 高 活动 性 的 区 战 的 破坏 比 对 静止 区 域 要 小 。 视频 包 头 携 带 位 置信 息 并 重复 图 
像 头 的 信息 ,这 些 信息 对 于 解码 视频 包 是 必要 的 。 

7. 宏 块 : 宏 块 是 图 像 中 的 … 个 16x 16 像素 的 块 。 用 4:2:0 格式 时 ,每 个 色 度 分 量 的 壬 直 
利水 平分 辩 奉 为 亮度 分 其 的 一 半 。 因 此 ,- -个 宏 块 包括 4 个 了 据 、- 个 Cr 块 和 一 个 Cb 
Re 它 的 头 携 带 相对 位 置信 息 .其 化 器 尺度 信息 ,MIYPE 信息 (1,P,B) 以 及 一 个 CBP, 
它 指 明 宏 奥 的 6 个 央 中 哪个 是 编码 的 (和 如 何 编码 的 )。 与 其 他 的 头 …- 样 ,其 他 的 参 
数 呀 能 出 现 也 可 能 不 出 现在 头 中 ,这 取决 于 MIYPE ”由 于 MPEG-4 也 需要 编 色 视 频 对 
象 的 形状 , 它 用 一 进 制 阿尔 法 快 扩展 了 密 块 ,阿尔 法 块 为 宏 块 中 的 每 个 像素 定义 了 改 

否 属 于 YO， 在 灰 度 阿 尔 法 赚 的 情况 下 , 宏 块 也 包含 编 公 的 阿尔 法 图 的 四 个 块 。 

8. Py TEPENE EAO LS AR EATA E, E 8 x 8 REAR, HLTA 
于 种 类 型 中 的 一 种 :Y,Cr 或 Cb。 块 的 像素 可 由 它们 的 DCT 系数 表示 ,通过 哈 夫 曼 码 记 
录 在 下 一 个 非 零 系 数 前 零 的 个 数 利 这 个 系数 的 幅 值 ， 


比特 流 中 的 各 种 头 允 许 解 笃 器 从 比特 流 的 差错 中 恢复 ,并 有 -日 接收 到 起 始 码 就 立即 开 




















Fe 














始 解码 ， 比 特 流 语法 的 设计 确保 不 存在 合法 的 码 字 组 全 可 以 仿效 起 始 码 。 经 常 在 语法 中 











个 反比 特 来 避免 这 种 起 始 三 的 仿效 。 在 标准 中 设 有 定义 当 接收 到 错误 的 比特 流 时 解码 器 的 行 
为 。 不 网 的 解码 器 可 以 其 有 不 同 的 行为 :一 些 解码 器 会 艰 省 ,并 归 求 重新 启动 终端 ;一 些 解码 


器 则 在 -是 图 像 内 恢复 , 述 有 一 些 解码 器 划 要 等 到 下 一 个 了 杆 出 现 后 才能 再 次 开始 解码 。 
13.8 采用 MPEG-7 的 多 媒体 内 容 描述 


在 普遍 存在 的 视频 应 用 中 ,语言 .音频 ,视频 ,图 像 和 视频 序列 的 索引 和 搜索 灾 得 非 党 





Ae 


此 
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要 。MPEG-7 是 正在 进行 的 一 种 致力 于 音 视频 文件 内 容 描 述 的 标准 [32,64]。 从 原理 上 说 ， 
MPEG-1/2/4 是 为 表示 信息 本 身 设计 的 ,而 MPEG-7 则 打算 表示 关于 信息 的 信息 。 从 另 一 个 角 
度 看 :MPEG-1/2/4 使 内 容 成 为 可 利用 的 ,而 MPEG-7 使 你 能 够 找到 所 需要 的 内 容 [64]。MPEG-7 
的 意图 是 为 其 他 的 MPEG 标准 提供 补 色 功能 :表示 关于 内 容 的 信息 ,而 不 是 内 容 本 身 (“ 关 于 比 
特 的 比特 ")。MPEG-4 能 把 有 限 的 文本 的 元 信息 附加 到 它 的 流 中 ,而 MPEG-7 标准 提供 全 套 的 
索引 和 搜索 能 力 , 使 得 我 们 不 仅 能 用 文本 键 而 且 也 能 用 像 彩 色 直方 图 ,运动 轨迹 等 键 来 搜索 视 
频 序列 。MPEG-7 于 2001 年 成 为 国际 标准 。 

在 不 三 中 ,首先 给 出 被 MPEG-7 标准 化 的 元 素 的 概述 ;然后 说 明 多 媒体 描述 方案 ,集中 于 
内 容 描述 。 我 们 解释 MPEG-7 如 何 分 解 一 个 音 视频 (AV) 文 件 以 达到 结构 和 语义 描述 。 最 后 ， 
我 们 说 明 用 了 :这些 描述 中 的 视频 描述 符 。 描 述 符 和 以 下 给 出 的 描述 方案 假设 语义 上 有 意义 的 
区 域 和 对 象 可 以 被 分 割 , 而 且 形 状 .运动 参数 甚至 这 些 区 域 和 对 象 的 语义 标 从 可 以 被 精确 抽取 
出 来 。 然 而 ,我们 注意 到 产生 这 样 的 信息 仍 是 一 个 有 待 解决 的 问题 ,而 且 可 能 需要 手工 帮助 。 
MPEG-7 标准 只 定义 可 用 来 确定 这 些 信息 的 语法 ,而 不 定义 用 来 抽取 它们 的 算法 。 


13.8.1 概述 
MPEG-7 标准 [321 的 主要 元 素 是 ， 


人 描述 符 (D): MPEG-7 描述 符 是 为 了 表示 特性 而 设计 的 ,包括 低 级 的 音 视频 特性 ,高 级 的 
语义 对 象 .事件 和 抽象 概念 的 特性 ,关于 存储 媒体 的 信息 ,等 等 。 描 述 符 定义 每 个 特性 
表示 的 请 法 和 语义 。 

© 描述 方案 (DS) :MPFG-7 Ds 在 MPEG-7 描述 符 的 基础 上 进行 扩展 ,把 单个 描述 符 以 及 
他 更 复杂 结构 内 的 DS 组 合 起 来 ,并 且 定义 了 组 合 的 描述 符 和 DS 之 间 的 关系 。 

描述 定义 语言 (DDL) :DDL 是 能 够 生成 新 的 DS 和 可 能 的 新 搞 述 符 的 语言 。 它 也 允许 扩 
展 和 修改 现存 的 DS。 已 选择 XML 图 解 语言 为 DDL 提供 基础 。 

里 系统 工具 :这 些 是 为 有 效 传输 和 存储 MPEG-7 的 描述 ,为 实现 内 容 与 描述 之 间 的 同步 以 
及 为 管理 和 保护 知识 产权 所 需要 的 工具 。 


13.8.2 多 媒体 描述 方案 


在 MEPG-7 中 ,把 DS 分 类 为 适合 于 音频 或 视频 领域 的 或 适合 于 多 媒体 描述 的 。 多 媒体 
DS 按照 它们 的 功能 分 成 以 下 几 类 ( 见 图 13.42): 


o 基本 总 素 :这 些 涉及 基本 数据 类 型 数学 结构 .图解 工具 .链接 和 媒体 局 部 化 工具 以 及 基 
本 DS, 基 本 DS 是 更 复杂 DS 的 基本 成 分 。 

© 内 容 描述 :这 些 DS 描述 AV 文件 的 结构 和 概念 形态 。 

些 工 具 规 定 关于 存储 媒体 、AV 文件 的 创建 及 应 用 的 信息 。 

:这 些 工具 通过 分 类 、 融 过 定义 和 收集 AV 文件 以 及 通过 建立 模型 来 处 理 内 容 



































浏览 与 访问 :这 些 包括 浏览 总 结 以 及 把 同一 个 AV 内 容 进行 变化 以 适应 客户 终端 的 性 
能 、 网 络 条 件 或 用 户 选择 。 
© FUP EH :这 些 DS 规定 属于 多 媒体 资料 消费 的 用 户 选 拌 。 
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内 容 组 织 收集 与 分 类 Be 用户 接口 























图 13,42 MPEG-7 多 媒体 描述 方案 概览 


内 容 描述 ”下 面 我 们 简单 说 明 内 容 描述 的 D5S。 更 详细 的 信息 可 在 参考 文献 [29] 中 找到 。 
为 内 容 描述 开发 的 DS 分 为 两 类 :描述 AV 文件 结构 形态 的 DS 和 描述 概念 形态 的 DS。 

站 的 形 态 : 这些 DS 根据 段 和 区 域 描述 AV 文件 的 语法 结构 。AYV 文件 (例如 县 有 音 轨 的 
视频 节日 } 分 成 段 的 层次 结构 , 称 为 段 树 。 例 如 ,整个 文件 被 分 段 成 儿 个 故事 单元 ,然后 再 把 每 
个 故事 单元 分 成 不 同 的 场景 ,最 后 把 每 个 场景 分 绚 成 许多 摄影 镜头 。 树 的 每 一 级 上 的 段 可 再 
进一步 分 成 视频 和 音频 段 ,分 别 对 应 视频 帧 和 音频 波形 。 除 了 使 用 包含 -组 完整 视频 帧 的 段 
外 (它们 在 时 间 上 可 能 是 不 邻接 的 ) ,也 可 以 抽取 出 静止 的 或 运动 的 区 域 。 区 域 可 递归 地 分 为 
子 区 域 ,形成 区 域 树 。 图 13.43 的 左边 图 示 了 段 树 的 概念 。 

概念 形态 : 这 些 DS 根据 事件 .对象 以 及 其 他 的 抽象 符号 描述 AV 文件 的 语义 内 容 。 语 义 
Ds 描述 文件 中 发 生 的 事件 和 对 象 ,并 日 为 它们 贴 上 相应 的 “语义 标 黎 "。 例 如 ,事件 类 型 可 能 
是 新 闻 广播 ,体育 比赛 等 。 对 象 类 型 可 能 是 人 ,汽车 等 。 与 结构 描述 一 样 ,MPEG-7 也 用 层次 分 
解 来 描述 AV 文件 的 语义 内 容 。 事 件 能 进一步 分 解 成 许多 子 事件 ,以 形成 事件 树 (图 13.43 的 
右边 )。 对 象 树 也 可 类 伏地 形成 。 事 件 - 对 象 关系 图 描述 事件 与 对 象 之 间 的 关系 。 

结构 与 语义 DS 之 间 的 关系 ; 事件 一 般 与 段 相关 联 , 而 对 象 与 区 域 相 关联 。 每 个 事件 或 对 
象 可 以 在 文件 中 发 生 许多 次 ,它们 实际 的 位 置 ( 段 或 区 域 ) 是 由 -~ 系列 链接 描述 的 ,如 图 13.43 
所 示 。 从 这 个 意义 上 , 段 树 和 区 域 树 所 表示 的 语法 结构 像 一 本 书 片 始 处 的 目录 表 , 而 事件 树 和 
对 和 象 树 所 表示 的 语义 结构 类 似 于 书 末 屁 的 索引 。 


13.8.3 视觉 描述 符 和 措 述 方案 


对 于 段 或 区 域 树 任意 级 上 的 每 个 段 或 区 域 ,一 组 音频 和 视频 的 描述 符 和 DS 被 用 来 起 
征 这 个 段 或 区 域 。 在 本 节 中 ,我 们 简单 地 介绍 用 于 描述 视频 段 或 对 象 的 彩色 纹理、 形状 、 运 动 
和 位 置 的 视频 描述 符 和 DS。 在 参考 文献 [28,33] 中 可 找到 更 完整 的 描述 。 

彩色 这些 描述 符 措 述 在 视频 段 、. 运 动 区 域 或 静止 区 域 中 的 彩色 分 布 。 
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时 间 | 
sh 























图 13-43 基于 段 和 事件 树 的 AV 文件 的 描述 (本 例 是 一 个 新 闻 节 目 )。 眉 树 
就 像 -- 本 书 开始 处 的 好 录 表 ,而 事件 树 类 似 干 书 末 昆 的 案 引 


彩色 空间 :定义 了 五 种 彩色 空间 :RGB,YCrCb,HSV,HMMD 和 单 色 。 或 者 ,我 们 可 由 RCB 
华 标 规定 一 个 任意 的 线性 变换 矩 阵 。 

e 彩色 量化 :这 个 描述 符 用 来 确定 量化 参数 ,包括 量化 级 数 和 每 个 彩色 分 量 的 起 始 值 。 只 
考虑 均匀 量化 。 

主导 彩色 :这 个 描述 符 规 定 段 中 的 主导 彩色 ,包括 主导 彩色 数 ,指示 主导 彩色 的 空间 凝 
聚 性 的 值 ( 即 主 导 彩色 是 在 眉 中 分 散 的 还 是 形成 一 从) ,以 及 对 于 每 种 主导 彩色 取 该 彩 
色 的 像素 的 百分比 ,彩色 的 值 和 它 的 方差 。 

o 彩色 直方 图 :彩色 直方 图 定义 在 HSV 空间 。 不 用 彩色 直方 图 本 身 , 而 是 对 直方 图 进行 
哈 尔 变换 ,并 且 取 决 于 可 利用 的 比特 率 ,用 可 变 的 精度 指定 哈 尔 系数 。 可 规定 几 类 直方 
A, 普通 彩色 直方 图 称 为 可 分 级 彩色 , 它 包 括 每 个 量化 彩色 在 段 或 区 域 的 所 有 像素 中 
所 占 的 百分比 。GoF/GoP 彩色 指 的 是 一 组 是 或 图 像 上 传统 直方 图 的 平均 值 . 中 值 或 交 
集 (每 种 彩色 的 最 小 百分比 )。 

彩色 布局 :这 个 描述 符 用 于 粗略 描述 图 像 的 彩色 模式 。 图 像 被 缩小 为 8x 8 的 块 ,每 个 
块 用 它 的 主导 彩色 表示 。 然 后 用 DCT 对 缩小 图 黎 中 的 每 一 种 彩色 分 量 (Y/Cb/Cr) 进行 
变换 ,并 指定 前 元 个 系数 。 
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o 彩色 结构 :这 个 描述 符 意 在 栅 提 具有 
周末 的 一 个 小 区 域内 皇 少 有 一 
值 。 与 彩色 直方 网 不 同 ,这 个 描述 符 

现 出 相等 的 数量 ,全 具有 该 彩色 的 

纹理 ”这 一 类 被 用 米 

e 均匀 纹理 ;这 个 描述 符 用 米 确 定 在 不 


相同 彩色 的 像素 的 空间 凝聚 性 。 只 要 在 每 个 像素 


-个 具有 该 彩色 的 像素 ( 称 为 结构 元 素 ), 就 增加 彩色 计数 


可 区 别 开 这 样 的 两 幅 图 像 :它们 对 于 所 给 定 的 彩色 
像素 组 的 结构 在 两 往 图 像 中 是 不 同 的 。 


描述 图 像 的 纹理 模式 。 


同方 向 和 频带 (尺度 ) 中 的 能 量 分 布 。 前 两 个 分 量 


是 像素 强度 的 均值 和 标准 益 。 后 而 的 30 个 分 量 是 通过 具有 6 个 方向 区 和 5 个 尺度 常 


的 Gabor 变换 获得 的 。 

纹理 浏览 :这 个 描述 符 候 据 规律 性 ,六 
型 ,一 个 人 可 以 用 它 训 览 或 检索 -种 
和 沿 每 个 方向 的 粒 糖度 。 


糖度 和 方向 性 来 确定 纹理 外 观 , 它 符合 描述 的 类 
纹理 模式 。 除 了 规律 性 外 ,可 确定 两 个 主要 的 方向 





© 边缘 直方 图 ;这 个 描述 符 用 来 描述 图 
方向 ,每 一 种 类 型 有 5 MOR, 
边缘 。 全 局 边缘 直方 图 是 在 峡 


售 中 的 边缘 方位 分 布 。 可 指定 三 种 类 型 的 边缘 直 


RGR TE 4 个 可 能 的 方位 中 方向 边缘 的 百分比 以 及 非 方向 
像 中 每 个 像素 上 进行 累积 的 ;局 部 直方 图 出 16 个 子 直 方 





图 组 成 ,每 个 了 直方 图 对 应 一 个 





像 


的 块 ,整个 








个 了 直方 网 组 成 ,等 个 对 应 








像 路 的 


像 分 成 4x4 个 抉 ; 半 全 局 育 方 图 由 13 
一 个 于 区 域 。 





形状 
© 基于 轮廓 的 描述 符 : 这 个 描述 符 可 








这 些 描述 符 用 来 描述 静止 和 运动 区 域 的 空 


RAFAT RA 
曲率 尺度 空间 (CSS) 表 示 中 的 峰值 来 描述 边界 


间 儿 何 。 
闭 边 界 的 二 维 区 域 。MPEG-7 已 选择 用 
56]i 已 发 现 它 反映 了 人 对 形状 的 感觉 











一 一 在 这 种 表示 小 相似 的 形状 共有 相似 的 参数 。 
递归 地 模糊 原始 边 界 . 沿 每 条 已 滤波 的 曲线 计算 上 
零 位 置 来 获得 的 。 撒 述 符 规 定 了 在 css 中 曲率 峰 


FMR CELE FE CSS 中 最 高 峰 的 曲线 ) 的 离心 这 和 国度 


ca 


边界 的 CSS 表示 是 通过 用 平滑 滤波 器 
出 率 ,最 后 在 连续 模糊 后 确定 曲率 的 过 
的 数目 .边界 的 全 局 离心 率 和 同 度 DE 
,原型 滤波 器 以 及 残留 峰 的 位 





© BFR AERA :这 个 描述 符 利 用 本 组 成 开 
形状 一 不仅 是 具有 单 连通 区 域 的 简单 形状 ,也 





BORIS HAR AE aT 
AÈRIA HE 


以 描述 任意 的 
区 域 组 成 的 复 


杂 形 状 。 具 体 地 涪 , 由 阿尔 法 图 表示 的 原始 形状 被 投影 到 角 射 线 变换 (ART) 的 基于 数 


上 ;描述 符 包 括 ART 系数 的 35 个 时 -化 的 和 量化 的 幅 
O 二 维 形状 :这 个 撕 述 符 提供 了 :: 维 网 格 模型 的 内 在 描述 。 它 利 
部 属性 。 为 了 导出 这 个 描述 符 ,在 网 格 表面 的 每 点 处 计算 所 谓 的 形状 过 纪 
点 的 主 上 曲率。 描述 符 规定 了 形状 谱 , 形 状 谱 是 在 整个 网 格 上 计 


直方 图 中 的 每 个 记录 实际 上 规定 了 特定 区 间 





{lic 











了 二 维 表面 的 一 些 局 
EBUR FR 
算 的 形状 索引 的 直方 图 ， 





PF 有 共有 形状 索引 的 所 有 三 维 网 格 表面 区 域 





的 相对 面积 。 田 外 ,描述 符 包 括 没 有 定义 形状 索引 的 网 格 的 平坦 表面 区 域 的 相对 和 面 积 


以 及 所 有 单个 多 过 形 元 素 的 相对 面积 ,这 些 元 素 是 不 可 


运动 ”这 些 描述 符 措 述 视频 


日 摄像 机 运动 :考虑 了 7 种 可 
集 , 推 ( 沿 光 轴 移 动 ) . 滚 ( 绕 此 轴 旋 转 )( 见 图 5.4) 


女 或 运动 区 域 以 及 全 局 





TRE REAR OIE oh PR R OKEE) i B 





J 能 可 靠 仿 计 形状 索引 的 区 域 . 
摄像 机 运动 的 运动 特性 。 
EA oH) E 
。 每 -种 运动 可 能 有 两 个 运动 方向 
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13. 


是 数 宁 视 频 压缩 标准 所 瞄准 的 第 一 个 应 


对 于 每 一 种 运动 类 型 和 方向 ,规定 了 出 现 ( 即 持续 时 间 ) ,速度 和 运动 量 。 最 后 -~ 项 度量 


由 特定 的 运动 引起 的 覆盖 或 露 ! 
© 运动 轨迹 :在 所 选择 的 采样 时 间 


H 的 面积 。 
,这 个 措 述 符 根 据 某 些 关键 点 的 二 维 或 三 维 坐 标 规定 非 


刚性 运动 物体 的 轨迹 。 对 于 每 一 个 关键 点 ,用 一 个 指定 的 内 揪 丽 数 (线性 的 或 挑 物 线 





的 ) 内 插 出 两 相 邻 采样 时 间 之 间 


的 轨迹 。 


© 参量 物体 运动 :这 个 描述 符 用 来 规定 刚性 运动 物体 的 二 维 运动 。 包 括 5 种 运动 模型 : 平 
移 , 旋 转 /缩放 、 仿 射 .平面 透视 和 抛物 线 。 平面 透视 和 抛物 线 运 动 分 别 参 考 公式 
(5.5.14) 定 义 的 投影 映射 和 公式 (5.5.19) 定 义 的 双 二 次 上 映射。 除了 模型 类 型 和 模型 参 


数 外 ,还 必须 指定 坐标 原点 和 时 


定 5 种 属性 :(1) 活 动 性 的 强度 , 





幅度 的 块 的 游程 导出 ;(4) 活 动 
上 景 化 的 活动 级 的 直方 鲜 来 描述 。 


间 间 隔 。 
里 运动 活动 性 :这 个 描述 符 用 于 描述 视频 眉 (一 般 是 在 镜头 级 ) 的 活动 强度 和 范 
由 运动 矢量 幅度 的 标准 偏差 度量 ; (2) 活 动 性 的 方向 ， 
定 所 有 运动 矢量 的 主导 方向 或 平均 方向 ; (3) 活 动 性 的 空间 分 布 ,由 运动 幅度 人 
的 空间 定位 ;(5) 活 动 狂 的 时 间 分 布 ,用 镜头 中 








EE ”这 些 措 述 符 和 DS 








二 区 域 定位 符 :这 个 描述 符 用 简单 且 可 


来 描述 静 


上 或 运动 区 域 的 位 置 。 





分 级 的 边框 或 多 边 形 直 示 来 确定 














。 可 指 
规 
于 平均 
单个 由 











区 域 位 置 。 


© 空间 一 时 间 定位 符 ;这 个 DS 描述 运动 区 域 。 它 把 整个 区 域 的 持续 时 间 分 解 成 几 个 子 





BL ,每 个 段 
之 间 的 运动 来 确定 。 














9 小 结 


LTT he ack BK Ss BAS 
对 于 非 刚性 物体 , 开 
多 边 形 定义 参考 区 域 ,并 且 用 运动 轨迹 描述 符 确定 参考 
在 相继 采样 时 间 上 所 选择 的 关键 点 的 坐标 。 对 于 
域 定位 器 描述 符 来 确定 参考 区 域 ,并 且 有 


区 域 ) 的 形状 以 及 该 区 域 与 下 一 段 的 参考 区 域 





发 了 一 个 图 轨迹 DS, 它 通过 











参量 物体 运动 


REE R 


区 域 之 间 的 运动 ,该 描述 符 确定 
FF 刚性 区 域 ,使 用 参数 轨迹 DS, EHK 
描述 符 来 描述 运动 。 


视频 通信 需要 标准 化 以 便 生产 价位 合理 、 协 问 工作 并 迎合 大 市 场 的 设备 。 个 人 视频 电话 














o H.261 发 布 于 1990 第 一 一 距 Jules Veme 写 下 视频 


电话 思想 有 101 年 , 比 他 预测 的 提前 了 899 年 [69]。 相 继 出 现 的 重要 视频 压缩 标准 H.263， 


MPEG-1, MPEG-2 和 MPEG-4 4} 515 





H.263 扩展 了 H.261 ,并 且 增加 许多 特性 
56 kbps 的 速率 在 模拟 电话 线 上 传输 。 
它 增加 了 半 像 素 运动 补偿 、B 图 像 的 双向 预测 以 及 其 他 的 改善 ， 





F 1993 年 .1995 年 .1995 年 和 1999 年 建立 。 


H.261 和 H.263 标准 只 描述 视频 压缩 ,而 MPEG-1/2/4 标准 也 描述 音频 表示 以 及 能 联合 传 
音 视 频 信号 的 系统 表示 。H.261 是 具有 整数 像素 运动 补偿 的 基于 块 的 混合 编码 器 。IL.261 
的 主要 应 用 是 对 以 64 kbps 和 2 Mbps 之 癌 的 速率 在 ISDN 线 上 传输 的 视频 会 议 进行 视频 编码 。 





MPEG-1 也 源 于 H.261。 


(包括 半 像 素 运动 补偿 ) , 因 





此 使 编码 视频 能 够 以 低 于 


以 便 满 足 大 约 1.2 Mbps 速率 的 编码 视频 以 及 CLE 分辨 率 的 CD-ROM 上 的 消费 视频 的 需求 。 
MPEG-2 屋 第 一 个 能 以 全 电视 和 HDTV 分 辩 率 编码 隔行 视频 的 标准 。 它 扩展 站 MPEG-1 ,为 隔 
行 视频 引 人 了 新 的 预测 模式 。 它 主要 应 用 于 大 约 4 Mbps 速率 的 TV 广播 以 及 15 Mbps 的 高 质 
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旺 视 频 方 面 。 基 于 MPFG-2 种 R.263 的 MPEC-4 视频 是 最 新 的 视频 编码 标准 , 它 引 入 基 士 对象 
药 切 能 ,不 仪 用 运动 和 纹理 ,上 旦 用 形状 来 措 述 视频 对 象 。 形 状 信息 与 亮度 信号 同位 ,并 有 用 
基于 上 下 文 的 算术 编码 器 进行 编码 。 

MPRG-2 和 MPEG-4 定义 类 ,要 求解 码 器 实现 标准 定义 的 工具 的 一 个 子 集 。 这 使 得 能 够 建 
立 标准 的 解码 器 ,这 些 解码 器 是 而 向 特定 应 用 领域 而 配置 的 - 

MPEG-1/2/4 标准 的 开发 使 次 视频 数据 的 交换 成 为 可 能 , 而 MPEG-7 的 目的 是 使 搜索 和 浏 
览 这 种 数据 成 为 可 能 。MPEG-7 可 独立 于 其 他 MPEG 标准 使 用 一 一 MPEG-7 描述 其 至 可 以 加 入 
模拟 电影 中 。MPEG-7 描述 可 用 来 提高 以 前 的 MPEG 标准 的 功能 ,但 不 会 代 芷 MPEC-1， 
MPRC-2 或 MPEG-4。 

由 于 终端 的 计算 能 力 在 连年 增加 ,标准 化 组 织 试图 提高 它们 的 标准 。ITU 目前 正在 制定 
视频 编码 标准 HH,26L., 承 谨 对 于 相同 的 比特 率 比 H.263 种 MPEG-4 改善 Ldb 以 上 ,或 者 当 编 色 
视频 速率 高 于 128 kbps 时 ,对 十 相同 的 图 像 质 量 ,比特 率 减 少 20% 以 上 。 

















13.10 习题 


- 在 标准 的 内 容 中 ,你 知道 关于 兼容 性 的 哪些 种 类 ? 

«GREE H.261 视频 编码 器 的 最 大 计算 强度 的 部 分 ”哪些 是 解码 器 的 最 大 计算 强度 的 
部 分 ? 

. 环 路 滤波 器 是 什么 ”为 什么 只 有 H.261 标准 实现 它 呢 ? 

. H.263 HE H.261 提高 编码 效率 的 上 具 是 哪些 ? 

. 按照 改进 的 PB 帧 模式 , MPEG-1 B 帧 与 H.263 PB 帧 之 间 的 主要 区 别 是 什么 ? 

. H.323 和 H.324 标准 的 目的 是 什么 ? 

.为 什么 MPEG-2 只 有 一 种 以 上 的 扫描 模式 ? 

- 工 帧 的 知觉 量化 对 编码 图 像 的 PSNR 有 何 影响 ”知觉 基 化 是 如 何 影响 图 像 质 量 的 ? 选 
择 加 羽 和 矩阵 系数 的 一 个 好 的 指导 原则 是 什么 ? 

9. 解释 MPEC-2 中 类 积 级 的 概念 。 

10. 在 商用 产品 中 使 用 MPEG-2 的 哪个 类 ? 为 什么 也 存在 其 他 的 类 ? 

11. MPEG-2 支持 哪 种 类 型 的 可 分 级 性 ? 

12. 什么 是 漂移 ? 它 什 么 时 候 出 现 ? 

13. 讨论 H.261,H.263 和 MPEC-1/2/4 提供 的 差错 复原 工具 。 为 什么 MPEG-4 差错 复原 工 

具 最 适 于 有 损 传 输 信道 ? 
14. 在 功能 和 编码 效率 方面 , MPEG-1 层 M 音频 编码 与 MPFG-2 AAC 有 什么 区 别 ? 
15. MPEG-4 允许 编码 形状 信号 。 在 二 进 制 形状 的 情况 下 ,有 多 少 个 块 与 宏 块 相 联 系 ? 它 
们 的 尺寸 多 大 ?关于 灰 度 形状 编码 的 情况 又 怎样 ? 

16, 为 什么 按照 ACE 类 的 MPEG-4 视频 优 于 MPEG-1 视频 ? 

17. MPEC-4 终 端的 哪个 部 分 没有 被 标准 化 ? 

18. 为 什么 视频 比特 流 包 含 起 始 码 ? 

19. 什么 是 元 信息 ? 

20. 哪个 标准 用 小 波 编码 器 ? 目的 是 什么 ? 





N 
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21. 为 什么 如 MPEG-4 中 所 定义 的 PAP 对 内 容 生成 很 重要 ? 
2. 在 语音 合成 器 与 讲话 的 脸 之 间 是 如 何 达 到 同步 的 ? 
23. MPEC-4 网 格 动画 的 功能 和 目的 是 什么 ? 








24. 视频 索引 和 检索 的 困难 是 什么 ? 一 个 标准 化 的 内 容 描 述 接口 ,例如 MPPC-7, 如 何 能 








简化 视频 检索 ? 
25, MPEG-7 中 的 段 树 是 如 何 描述 视频 序列 的 语法 结构 的 ? MPEC-7 中 的 事件 树 是 如 何 
述 视频 序列 的 语义 结构 的 ?它们 的 关系 是 什么 ? 








26. MPEC-7 开发 的 视频 描述 符 是 什么 ? 假定 这 些 描述 符 被 添加 到 一 个 大 的 视频 数据 库 


中 的 每 个 视频 序列 中 。 说 明 使 用 它们 来 检索 某 类 序列 的 方法 。 
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在 前 儿 间 中 ,我 们 已 经 讨论 各 种 视频 编码 技术 和 标准 。 对 于 高 效 视频 通信 ,降低 原始 视 
频 码 率 只 证 必 要 的 步骤 之 一 。 另 一 个 同等 重要 的 任务 是 寓 处 理 通信 网络 中 的 差错 和 损失 。 数 
据 通 信 - - 般 不 会 受到 严格 的 延迟 约束 ,因此 能 够 采用 基于 重 传 机 制 的 网 络 协 议 以 确保 无 误差 
传送 。 实 时 视频 则 不 同 , 它 对 延 时 敏感 ,因此 不 容易 利用 重 传 的 方法 。 视 频 编 码 中 广泛 使 用 预 
测 编码 和 可 变 长 编码 , 敏 使 卜 缩 的 视频 特别 容易 受到 传输 差错 的 损害 ,在 存在 误差 情况 下 ,成 
功 的 视频 通信 要 求 仔细 地 设计 编码 器 ,解码 器 以 及 其 他 系统 层 。 

在 本 章 中 ,我 们 给 出 量 前 已 有 的 用 于 视频 通信 中 差错 控制 的 方法 。 我 们 首先 说 明 视频 道 
信和 差 错 控制 的 必要 性 和 所 面临 的 挑战 ,并 概要 介绍 已 有 的 各 种 方法 (14.1 节 )。 为 了 有 助 于 理 
解 视频 通信 中 的 差错 控制 问题 ,在 14.2 节 中 描述 各 种 视频 业务 的 QoS 要 求 和 不 同 网 络 的 特 
性 。14.3 节 给 出 传输 层 的 差错 控制 机 制 。14.4 和 14.5 季 对 差错 复原 编码 和 错误 隐藏 技术 进 
行 了 综述 。14.6 节 描 述 基于 编码 器 和 解码 器 交互 的 技术 。 最 后 , 14.7 节 总 结 了 日 .263 和 
MPEG-4 标准 所 采用 的 差错 复原 工具 。 


14.1 动机 和 方法 概述 


典 榭 的 视频 道 信 系统 包括 5 个 步骤 ,如 图 14.1 所 示 。 视 频 编码 器 首先 对 视频 进行 压缩 以 
降低 码 率 . 压 缩 比特 流 随后 被 分 割 成 固定 长 度 的 或 可 变 长 度 的 包 ,并 与 其 他 类 型 的 数据 (例如 
音频 ) 复 用 。 如 果 网 络 保证 励 比 特 差错 传输 , 则 可 直接 把 包 传送 到 网 络 上 。 否 则 ,这 些 数据 包 
一 般 要 经 过 信道 编码 ,通常 使 用 前 向 纠 错 (FEC) 和 交织 ,以 进行 误 码 保护 。 在 接收 端 ,将 接收 
到 的 包 进行 信道 解码 和 和 解 包 , 得 到 的 比特 流 随 后 输入 到 视频 解码 器 以 重建 原始 视频 。 实 际 上 。， 
许多 应 用 系统 把 打包 和 信道 编码 敌 入 在 信 源 编 公 器 作为 网 络 的 一 个 适 配 层 。 


其 他 数据 其 他 数据 


, am WEA, 
BB am 网 络 视频 信 
ye) Bae - 和 和 估量 wm HER | net 


图 14.1 - -个 典型 的 视频 通信 系统 


传输 错误 可 粗 栈 地 分 为 两 类 :随机 比特 错误 和 删除 错误 。 随 机 比特 错误 是 由 物理 信道 的 
不 完善 引起 的 . 它 导致 比特 反 转 、 插 入 和 删除 。 随 机 比特 错误 的 影响 取决 于 编码 方法 和 受 影响 
的 信息 内 容 , 从 可 忽略 到 不 可 忍受 。 当 采用 固定 长 度 编码 时 ,随机 比特 错误 将 只 影响 一 个 码 
字 , 引 起 的 损害 一 般 是 可 接 爱 的 。 但 如 果 采 用 可 变 长 编码 (YIC, 例 如 哈 夫 曼 编 码 ) ,随机 比特 
错误 可 能 使 编码 信息 失去 同步 ,从 而 导致 许多 后 续 比特 不 可 解码 ,直到 下 一 个 疝 步 码 字 出 现 为 
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: 另 一 方面 ,删除 错误 可 能 由 包 交 换 网 络 ( 如 因特网 ) 中 的 包 丢 拓 ,存储 媒体 中 由 于 物理 缺陷 
导致 的 帘 发 性 差错 或 者 短 时 间 的 系统 放 障 所 引起 。VLC 编码 流 中 的 随机 比特 差错 也 可 引起 
删除 错误 ,出 于 单个 比特 差错 可 导致 许多 后 续 比 特 不 可 解 得 ,从 后 使 之 不 可 用 。 由 于 连续 的 比 
特 段 被 玉 失 或 破坏 ,删除 错 识 ( 包 括 那 些 巾 随机 比特 错误 引起 的 删除 ) 的 影响 比 随机 比特 错 肖 
更 内 有 破坏 性 

由 于 以 下 几 个 原 内 ,视频 通信 中 的 差错 控制 具有 相当 的 挑战 忻 。 首 先 , 由 于 信 源 编码 器 使 
用 时 间 项 测 编码 和 YLC, 夺 缩 的 视频 流 极 容易 受到 传输 莽 错 的 破坏 、 巾 于 使 用 时 间 预 测 ,一 个 
错误 地 恢复 的 样 点 可 能 导致 同 一 帧 和 后 续 蚌 中 后 续 样 点 发 生 钳 误 , 如 图 14.2 所 示 。 注意. 不 
只 在 时 间 十 产生 误差 积累 ,也 会 由 于 基于 运动 补偿 的 预测 在 裕 间 上 产生 误差 积累 。 其 次 ,由 于 
使 用 YLC, 比 特 错误 的 影响 等 价 于 删除 错误 的 影响 ,引起 视频 巾 中 大 面积 的 俱 坏 一 般 ,在 基 
于 上 忌 的 混合 编码 器 中 (9.3.1 节 ) ,每 ARAO MERRIE h ERESIA, 它 帮 助 
FA EENE. IRE GOR( 块 组 ) 的 中 间 检测 出 传输 误 码 , 即 于 弃 整 个 GOB。 解 码 器 在 下 
一 个 GOB 再 重新 开始 解码 。 为 了 说 明 出 传输 误 公 引 起 的 视觉 效应 ,天 14.3 示 册 了 一 个 出 现 
包 委 失 时 重建 帧 的 典型 例子 。 在 这 个 例子 中 ,损坏 的 COR 用 基于 运动 补偿 的 叶 间 内 播 方法 
(14.5.1 节 ) 进 行 恢 复 。 当 天 包 率 不 太 贞 时 (图 中 入 包 率 为 3% 和 mene 这 种 方法 能 在 某 
种 程度 上 隐 减 错误 ,但 当 有 太 多 的 包 丢 失 时 ( 赂 中 10% MERR ARS OBER LE, 
意 ,所 示 帧 中 的 人 为 失 点 不 只 是 由 于 本 帧 而 日 Fat FB BONED eons de 


PE 


ee wa 











图 14.2 WSR RA 
为 了 使 上 庄 缩 比特 流 对 于 传输 误 税 能 够 复原 ,必须 在 流 中 加 和 元 余 度 ,以 使 其 能 够 惟 测 和 
纠正 错误。 这 _ 服 在 信道 用 FEC 二 sae A 2 i 
的 下 家 A 





BU = i SATANI OPE awah 
输 误 码 。 然 而 ,这 种 理想 的 无 差错 传送 只 有 当 实 现 FEC ALA ERRER AAAA, RENEE 
中 二 本 能 接受 的 。 因 此 , 估 源 和 依 道 联合 编码 经 常 是 更 可 行 的 尹 案 , 它 在 信 源 编码 和 信道 编 三 
之 问 分 配 总 的 所 余 量 。 所 有 的 站 错 复原 编码 方法 实质 上 都 是 在 这 个 前 提 下 工作 的 ,有 意 使 信 
源 编码 器 的 效 闪 比 可 能 达到 的 低 , 议 使 压缩 流 中 出 现 差错 或 天 失 的 比特 对 备 建 视频 质 盟 不 会 
有 严重 的 影响 。 通常 这 是 由 仔细 地 设计 预测 编码 环 路 和 可 灾 长 度 编码 器 以 限制 误差 积累 的 程 
度 实现 的 。 

当 由 于 传输 差错 而 丢失 一 个 图 像样 点 或 样 点 块 时 ,解码 器 可 利用 时 域 和 空 域 相 邻 样 点 的 
PASTE: ,根据 相 邻 的 已 接收 样 点 估计 它们 。 这 种 技术 称 为 错误 隐藏 、 由 于 实际 的 信 源 在 
编码 过 程 中 没有 完全 去 除 信号 的 完 余 度 ,所 以 这 是 可 能 的 。 与 益 错 复原 信 源 编码 不 同 ， 错误 隐 
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藏 的 优点 是 不 利用 任何 额外 的 比特 率 ?, 但 在 解码 器 中 要 增加 计算 的 复杂 度 。 





最 后 ,为 了 使 在 信 源 编码 器 中 媒人 的 元 余 有 用 以 及 便于 在 解码 器 中 进行 错误 隐藏 , 编 解码 
器 和 网络 传输 协议 必须 协调 一 致 。 例 如 ,如 果 比 特 流 中 某 些 比特 比 其 他 比特 更 重要 ,那么 应 该 
给 重要 的 部 分 分 配 一 组 更 严格 的 QoS 参数 以 便 在 网 络 上 传输 。 为 了 抑制 误差 积累 ,网 络 也 可 
提供 反馈 信道 ,以 使 编码 器 知道 解码 端 重建 信号 的 哪 部 分 受到 了 破坏 ,从 而 不 用 这 部 分 来 预测 








将 来 的 样 点 。 





总 之 ,为 视频 传输 而 设计 的 差错 控制 机 制 可 分 为 4 类 :(1) 应 用 于 传输 层 , 包 括 信道 编码 
器 .打包 器 / 复 用 器 以 及 传输 惫 议 ;(2) 在 信 源 编码 器 引 人 ,使 比特 流 对 潜在 差错 更 具 差 错 复 原 
性 ;:(3) 在 解码 器 通过 错误 检测 ,以 隆 藏 益 错 的 影响 ;(4) 需 要 信 源 编码 器 与 解码 器 之 间 交 互 作 





用 ,使 得 发 送 端 能 够 根据 在 解码 端 检 测 到 的 委 失 状况 修改 其 操作 。 我 们 将 在 14.3 ~ 14.6 节 中 


分 别 描述 这 4 类 技术 。 


\\ 


VN 
YAA N 





图 14.3 传输 铺 误 对 采用 K. 263 标准 的 压缩 视频 流 的 影响 。 左 上 图 :没有 传输 错误 ,图 像 质 量 
可 达 比 特 率 所 限 。 右 上 图 :3% 的 包 丢 失 ; 左 下 图 :5% 的 包 丢 失 ; 右 下 图 :10% 的 包 丢 失 


14.2 ”典型 的 视频 应 用 系统 和 通信 网 络 


在 本 节 中 ,我 们 说 明 不 同类 型 的 视频 应 用 系统 和 实际 网 络 的 特性 。 这 些 是 要 考虑 的 好 











要 


因素 ,因为 差错 控制 的 必要 性 和 技术 的 有 效 性 取决 于 应 用 类 型 以 及 底层 信道 特性 和 网 络 协议 。 


14.2.1 视频 应 用 系统 的 分 类 














当 考 虑 视频 传输 中 的 差错 控制 时 ， 重 要 的 是 知道 应 用 系统 是 对 要 求实 时 传送 ， 以 及 允许 











O ”为 了 便于 差错 隐藏 ,通常 要 在 编码 器 中 以 约束 预测 和 数据 交织 的 形式 揪 人 少量 的 元 余 。 


的 最 大 平均 端 到 端的 延迟 〈 称 为 等 待 时 间 ) 和 延迟 变化 〈 称 为 抖动 ) 是 多 少 。“ 实 时 ”传送 
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意味 着 压缩 数据 是 以 与 编码 视频 信 源 的 速率 相 赋 配 的 速度 传送 。 例 如 ， 如 昌 源 视频 是 以 
10 Mbps 编 码 的， 那么 时 传送 此 信 源 的 通信 估 道 的 吞吐 量 虫 至 少 应 该 是 10 Mbps. HERE, FTL 
实时 (如 在 视频 会 议 应 用 系统 中 ) 或 离线 如 在 视频 流 应 用 系统 中 ) 产生 小视 频 信和 号。 除了 
简单 的 下 载 外 ， 所 有 的 视频 应 用 系统 都 要 求实 时 传送 。 但 是 某 些 应 用 系统 〈 例 如 流 媒体 ) 可 
以 允许 相对 较 大 的 播放 延迟 。 在 这 种 情况 和 下， 接收 端 可 用 一 个 大 的 缓冲 区 来 平滑 持 动 ， 使 得 
解码 视频 在 初始 的 播放 延迟 之 后 ， 能 够 以 -个 恒定 的 帧 率 播放 。 对 于 这 些 应 用 系统 ， 可 用 有 
限 数 日 的 重 传 来 处 理 传输 差错 。 下面 、 我 们 根据 视频 应 用 系统 在 实时 传送 、 等 待 时 间 和 拌 动 
方面 的 要 求 对 它们 进行 分 类 。 

注意 ,由 视频 信 涉 到 信 宿 的 端 到 端 延迟 可 能 与 几 个 因素 有 关 ( 见 图 14.4) :编码 器 处 理 延 
迟 A7.( 包 括 采集 数据 和 编码 ) ;编码 器 缓冲 区 延迟 AT, (为 了 平滑 压缩 比特 流 中 的 速率 变化 )， 
传输 延迟 47.( 一 般 由 传输 本 身 引起 的 很 小 的 延 以, 以 及 由 于 排队 和 在 基 士 包 的 网 络 中 可 能 重 
传 而 引起 的 延迟 ) MESAER ATs( 为 了 平滑 传输 抖动 ) 以 及 解码 器 处 理 延迟 AT, Cf 
括 解 公 和 为 性 定 帧 播放 的 显示 缓 溃 区 )。 当 然 , 若 信 源 是 预先 压缩 的 ,如 在 视频 广播 和 流 媒体 
应 用 系统 下 , 则 不 考虑 编码 延迟 。 在 木 节 中 ,我 们 主要 讨论 传输 延迟 ,假设 由 视频 编 解 码 以 及 
编 解码 缓冲 区 引起 的 延迟 对 应 用 系统 米 说 是 可 接受 的 ,并 旦 这 些 延迟 是 相对 周 定 的 。 
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图 14.4 在 视频 通信 系统 中 引起 端 到 端 延迟 的 因素 


交互 式 双向 视频 通信 这 类 例子 包括 电视 会 议 、 视 频 电话 .虚拟 教室 等 。 这 类 应 用 系统 有 
非常 严格 的 延迟 要 求 。 为 有 效 地 通信 ,等 待 时 间 和 拌 动 必须 保持 在 一 定 的 限度 内 。 例 如 对 于 
洲际 电话 会 谈 ,TTU-T G.114 标准 建议 可 接受 质量 的 单 向 最 大 延迟 十 150 ms。 假如 网 络 管理 者 
总 识 到 延迟 对 用 户 应 用 系统 的 影响 ,150 ~ 400 ms 是 可 接受 的 [37]、 同 样 的 限定 也 适用 于 视频 
会 议 应 用 系统 。400 ms 以 上 的 延迟 对 于 有 效 的 通信 系统 是 不 可 忍受 的 。 同 样 , 当 播放 音频 和 
视频 时 ,为 保持 声 像 同步 ,应 限 制 视频 相对 计 音 频 的 延迟 。 通 常 ,在 发 送 端 和 接收 端 中 有 意 稍 
微 延迟 音频 ,以 保持 声 像 同 步 。 

对 了 这 类 应 用 系统 ,必须 实时 实现 编码 和 解码 。 否 则 ,到 来 的 帧 可 能 会 堆积 在 编码 占 中 ， 
或 者 在 解码 器 中 不 得 不 丢弃 所 接收 的 比特 。 为 了 满足 严格 的 延迟 要 求 ,编码 器 和 解 公 器 的 组 
冲 区 ' 般 很 小 。 重 传 一 般 是 不 可 接受 的 。 网 络 中 的 抖动 也 必须 受 限 。 由 于 有 这 些 限制 ,交互 
式 应 川 系 统 被 认为 是 在 各 种 类 型 的 视频 通信 中 要 求 最 苛刻 的 。 

垃 运 的 是, 在 空间 和 时 间 分 辨 率 方面 只 多 要 达到 低 到 中 等 的 视频 质量 。 例如 ,5 ~ 10 fps 




















OO “ 奋 吐 最” 十指 有 效 的 端 到 端 传输 速率 。 例 如 ， 一 个 网 络 果 能 具有 10 Mbps 的 原始 带宽 ， 但 某 些 数据 由 十 天 包 或 
越 时 适 要 重 传 ， 使 得 实际 吞吐 量 低 于 10 Mbps。 
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的 QCIF 对 于 视频 电话 应 











系统 是 可 接受 的 0。 而 














10~ 20 fps 的 CIF 对 于 大 多 数 视频 会 议 足以 


令 人 满意 。 而 旦 ,中 等 程度 的 压缩 和 传输 和 为 失真 通常 是 可 容忍 的 。 
单 向 视频 流 ”在 这 类 应 用 系统 中 ,现场 或 预先 竺 缩 的 视频 信 源 被 传送 到 一 个 或 多 个 信和 宿 。 
接收 端 不 必 等 待 整个 视频 文件 到 来 ,在 可 能 最 多 儿 秒 的 初始 播放 延迟 后 ,就 开始 解码 并 播放 视 


频 。 根 据 接收 者 的 数 且 ,应 用 系统 可 进一步 分 为 广 
视频 应 


字 电 视 广 播 ,视频 节目 一 般 为 HT ,601 DRR, 
率 。 对 于 HDTV, 比特 率 可 高 达 20 Mbps。 对 于 








系统 。 视 频 组 播 ,例如 Mbone( 一 种 多 应 





播 ` 组 播 或 单 播 。 电 视 广 播 是 最 广泛 采用 的 
系统 , 它 多 许 任 何 因特网 上 的 用 户 观看 会 






































显然 ,带宽 需求 取决 于 视频 资料 的 类 型 。 对 
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MPEG-4 


以 使 接收 到 的 流 能 被 解码 ,并 


户 的 带宽 有 限 以 及 带宽 和 延迟 可 变 ,一 般 使 月 
或 其 他 专 有 格式 压缩 )。 
由 于 发 送 端 和 接收 端 
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的 实况 视频 ) 是 另 一 种 重要 的 应 用 。 正 日 益 流 行 的 一 种 应 用 系统 是 从 预先 压缩 的 视 
频数 据 库 通过 因特网 播放 流 视 频 ,一 般 由 单个 





接收 。 





D 星 (DBS) 信 道上 的 数 
MPEG-2 格式 压缩 ,具有 3 ~ 10 Mbps 的 比特 


特 网 或 无 线 网 络 上 的 组 播 和 单 播 ,由 于 每 个 
较 低 质量 的 视频 (CIF 或 以 下 ,用 MPEG-1 或 


间 没 有 交互 式 通信 ,所 以 等 待 时 间 可 能 相当 长 ,但 必须 限制 拌 动 ， 
f 世 在 初始 延迟 后 以 全 定 的 帧 率 平 滑 地 播放 。 电 视 广 播 使 用 带宽 
有 保证 旦 抖动 非常 低 的 专用 信道 。 对 于 在 因特网 上 的 视频 组 播 或 单 播 , 由 于 








网 络 状况 的 可 变 


性 ,拉动 可 能 很 大 ,在 接收 端 一 般 都 没 置 一 个 大 的 平 清 缓 证 区 ,以 减 小 抖动 。 缓 种 区 越 大 ,播放 
延迟 越 长 ,但 显示 的 视频 越 平 滑 。 


太 网 到 低速 的 无 线 调 
《由 强大 的 工作 站 到 电池 供电 的 手持 设备 )。 

可 分 级 编码 (第 11 章 ), 具 有 不 同 带宽 和 计算 
在 第 15 章 将 更 详细 地 讨论 


到 达 之 后 ,接收 端 才 开始 播放 资料 。 这 种 应 月 
于 非常 低 的 传输 人 


在 因特网 的 组 播 或 单 播 情 况 上 ,潜在 接 





市 解 调 器 线路 ) 连 接 到 网 上 。 
视频 
能 力 











特 网 和 无 线 IP 
显然 ,现场 信 源 与 预先 压缩 信 源 的 主要 区 

















区 





收 者 可 用 不 同 的 接 人 线路 (从 100 Mbps 的 快速 以 


另外 ,接收 端 可 能 具有 非常 不 同 的 计算 能 力 
眼 务 器 必须 考虑 这 些 不 定 因素 。 例 如 ,采用 
的 用 户 可 选择 抽取 压缩 视频 流 的 不 同 部 分 。 




















络 上 的 流 视 频 。 
别 在 于 现场 信 源 必须 实时 压缩 ,这 就 显著 增加 了 
传输 端 系统 的 复杂 度 。 编 码 处 理 和 编码 器 缓冲 








也 将 引起 额外 延迟 。 


单 向 视频 下 载 “在 这 种 情况 下 ,预先 记录 的 视频 (和 音频 被 下 载 到 信 宿 。 直 到 整个 视频 








月 系统 在 延迟 方面 的 需求 最 低 ,尽管 过 大 延迟 (由 
荫 宽 引起 ) 可 能 造成 接收 端 在 通信 会 话 中 途中 断 下 载 、 可 分 级 编码 和 累进 传 


输 是 所 希望 的 ,以 便 相 对 快 地 传送 一 个 低 分 辩 率 的 视频 版 本 。 由 于 宽松 的 延迟 要 求 ,所 以 可 采 
用 重 传 来 处 理 数据 的 任何 丢失 或 错误 传送 部 分 。 除 了 一 般 用 于 数据 传送 的 差错 控制 机 制 外 ， 
不 需要 特殊 的 差错 控制 方法 。 


14.2.2 通信 网络 








在 本 小 节 中 ,我 们 描述 不 同类 型 的 网 络 和 可 能 
我 们 说 明 它 在 带宽 、 延 迟 ,拉动 和 丢失 率 (包括 比特 错误 和 丢 包 ) 方 面 的 特性 以 及 在 这 些 网 


实现 的 典型 视频 应 用 。 


公共 交换 电话 网 络 {PSNT) PSNT 指 简单 的 














于 视频 传输 的 有 关 协 议 。 对 于 每 种 网 络 ， 
络 上 











老式 电话 系统 (POTS)。PSTN 的 最 大 优点 是 


全 ”在 这 样 低 的 帧 率 下 ,视频 来 回 旅程 的 延迟 经 常 超过 前 面 引用 的 400 mm 极限 ,会 引起 声 像 不 同步 的 问题 。 
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它 几 乎 可 以 被 美国 或 (从 里 大 范围 来 讲 ) 典 界 上 的 任何 人 接 人 。 使 用 最 先进 的 调制 解 调 技术 ， 
目前 最 快 的 传输 速率 己 达 到 56 kbps, 供 这 对 于 传送 其 有 满意 质 旺 的 视频 仍然 大 低 , 为 了 在 
PSTN 上 进行 多 媒体 通信 ,开发 了 TFU-T H.324 标准 系列 (13.3.2 节 ) [36]。 在 基于 H.324 的 系 
统 中 ,通过 调制 解 调 器 控制 机 制 来 调节 误 合 率 与 调制 解 调 线路 比特 率 之 问 的 折 沾 。 大 多 数 系 
统 采 用 强大 的 差错 控制 编码 ,以 一 些 比特 率 为 代价 达到 非常 低 的 差错 率 181]。 

即使 在 56 kbps 下 (-- 般 ,56 必 调制 解 凋 器 上 可 达到 的 有 效 载荷 传输 率 比 这 低 得 多 ) ,也 只 
能 提供 一 个 小 窗 1 视频 (QCIF 或 更 小 )。 尽 管 这 对 视频 通信 的 日 的 可 能 够 用 ,但 远 不 能 达到 令 
人 满意 的 程度 。 用 ADSI 此 对 称 数字 用 户 环 路 ) 技 术 [54] 可 实现 出 高 的 速率 ,在 下 行 链 路 方向 
(由 办 公 中 心 到 家 ) 十 高达 6 Mbps. ADSL 是 视频 点 播 业务 中 播放 MPEC-1 和 MPEC-2 RHET 
传输 媒体 之 一 。 涉 及 ADSL 上 多 媒体 传输 问题 的 详细 讨论 参见 参考 文献 [96|。 

综合 业务 数字 网 [ISDN) ISDN ER 个 使 用 数字 传输 的 公共 网 络 [ 66]。 码 率 可 以 是 
64 kbps 基本 信道 ( 称 为 B 信道 的 倍数 , 乘 数 因 子 p 的 范围 从 1 至 24, 总 计 带 宽 相 当 于 
64 ~ 1536 kbps, ISDN 的 基本 速率 接口 为 28+D 信道 ,信道 十 16 kbps, EA TAEZ S. 
128 kbps(p = 2) 传 送信 号 只 能 达到 很 低 质量 的 视频 (例如 10 Ips 的 QCIF)、 为 获得 更 好 的 视频 
质量 ( 即 15 ~ 30 fps 的 CE) ,至 少 种 要 384 kbps(p =6)。 

与 电话 线路 -PE ISON 上 的 通信 和 是 基于 电路 交换 的 。 也 就 是 说 ,一 日 建立 连接 , ISDN 连 
接 就 为 特定 的 会 语 所 专用 . 由 于 这 个 原 关 ,连接 是 莫 常 可 系 的 ， 第 -- 个 用 十 视听 会 议 的 IIUT 
建议 系列 日 .320 是 为 ISDN 而 开发 [40]。 目 前 绝 大 多 数 视 频 会 议和 视频 电话 设备 采用 
于 .320。 开 .320 系 统 所 用 的 多 路 复 用 协议 H. 220 | 39 | 提供 了 -个 具有 周 定 视频 比特 率 的 面 癌 比 
特 的 .实际 上 无 差错 的 视频 传输 信道 。 除 了 视频 编码 标准 强制 的 帧 内 宏 抉 册 新 机 制 外 ,不 需 归 
其 他 差错 控制 工具 ;81]。 

宽带 ISDN(B-ISDN) 刚才 所 述 的 具有 64 kbps 基本 信道 速率 的 ISDN 业务 ,应 更 精确 地 称 
为 窄带 ISDN 或 N-ISDN。 在 现 有 的 双 绞 线 局 域 环 路 布线 上 可 提供 这 种 业 Jo 宽带 ISDN 或 
B-ISDN[ 66] 是 指 提供 高 宽带 信道 的 ISDN 业务 ,包括 具有 384 kbps 速率 的 HO 信道 ,其 有 
1536 Mbps 速 率 的 HLL 信道 以 及 具有 1920 Mbps 速率 的 H12 信道 。 这 需要 使 用 更 高 带宽 的 同 轴 
电缆 或 光纤 。B-ISDN 的 带 沉 也 规定 为 64 kbps 的 倍数 , 乘 数 因 于 范围 从 1 至 65 535。 

为 有 效 地 利用 带宽 ,B-ISDN 使 用 具有 疾 定 尺寸 包 { 称 为 单元 ) 的 ATM 包 交 换 技术 。 出 于 
没有 为 所 建立 的 连接 建立 专用 线路 ,因此 它 不 如 电路 交换 ISDN 可 靠 ( 即 具有 较 大 的 延迟 变化 
和 潜在 单元 丢失 )、 很 短 的 单元 (53 字 节 ,其 中 48 宁 节 是 有 效 载荷 ) 使 它 适合 于 低 延 迟 要 求 的 
实时 应 用 系统 。 在 这 类 网 络 中 ,可 能 内 线路 拥塞 引起 单元 丢失, 尽管 丢失 率 相当 低 ;对 于 视频 
业务 [3] ,典型 的 单元 丢失 率 (CLR) 范 围 是 10-* ~ 1074, 一 般 . 单 元 失 可 以 被 认为 是 包 丢 失 
的 一 种 形式 ,由 此 可 以 认为 单元 是 极 小 的 包 。 然 而 ,处 理 单 ICIS HOLA fl, PALA MA eg aS 
愿 与 开销 的 折 中 角度 讲 . 在 每 个 单元 的 开始 处 加 同 些 标志 效率 不 高 。 

ATM 网 络 提供 四 种 类 型 的 业务 ;恒定 比特 率 (CBR) .可 变 比 特 率 (VBR) .可 用 比特 潍 (ABR) 以 
及 未 指定 比特 率 (URR) 。 通 常 .视频 以 VBR 业务 传送 ,压缩 比特 流 必 须 满足 平均 速率 和 峰值 速率 
方面 的 也 置 条 件 。 人 允许 速率 变化 令 其 可 以 选择 视频 纺 奋 参数 来 保持 相对 伍 定 的 视频 质量 ,这 是 
所 期 望 的 特 件 。 各 M 网 络 的 详细 综述 以 及 与 在 ATM 上 视频 传输 有 关 的 问题 参见 参考 文献 | 3， 
Sla 

因特网 因特网 是 由 称 为 路 岂 器 的 计算 机 互联 的 多 个 物理 网 络 所 组 成 。 最 基本 的 组 块 称 
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为 局 威 网 (LAN) ,其 带宽 一 般 为 10 ~ 100 Mbps。 在 本 地 区 域 相左 连接 的 LAN 构成 城 域 网 
(MAN) ,最 后 ,及 个 相互 连接 的 MAN 形成 广域网 (WAN)。 因 特 网 上 的 通信 是 基于 包 交 换 的 ,也 
就 是 说 ,把 所 要 传送 的 数据 分 成 包 ,每 个 包 都 给 定 一 个 包头 来 指定 信 源 和 信 宿 的 地 址 。 每 个 包 
是 独立 传送 的 。 在 中 间 网 络 节点 处 (例如 交换 机 或 路 由 器 ) 可 能 由 于 缓冲 区 溢出 而 丢弃 包 , 或 
出 于 过 长 的 排 羽 延迟 而 被 认为 于 包 。 对 于 实时 视频 应 用 系统 ,任何 在 允许 延迟 时 间 之 后 到 达 
的 包 也 被 认为 丢失 。 包 的 传输 是 由 TCP/IP 协议 栈 控制 的 , 它 包括 三 个 重要 的 协议 :因特网 协 
DRIP) ,上 用 于 不 可 靠 的 无 连接 包 传输 业务 的 用 户 数 据 报 协议 (UDP) ,以 及 用 于 可 靠 的 流 服务 的 
传输 控制 协议 (TCP)。 眉 是 低层 协议 ,UDP 和 TCP EE AEE. TCP ADEE 
请 求 (ARQ) 来 保证 传送 [16]。 
因特网 及 其 有 关 的 TCP/IP 协议 最 初 是 为 对 延迟 不 敏感 的 数据 通信 设计 的 。 对 于 实时 业 
务 , 例 如 视频 会 议和 流 视频 ,TCP 中 的 重 传 机 制 并 不 适合 。 为 了 支持 这 类 应 用 ,开发 了 实时 传 
输 协议 (RTP) 和 与 其 相配 的 实时 控制 协议 (RTCP)。RTP 构建 于 UDP 之 上 ,但 在 传输 头 中 增加 
了 信息 ,包括 序列 号 以 及 定时 和 同步 信息 。RIP 允许 在 接收 问 根 据 序列 号 检测 丢失 的 包 以 及 
EFRAIN. RTCP 是 为 向 RIP 话 路 的 参与 者 提供 QoS 反馈 (例如 丢 包 率 ) 设 计 的 ,以 便 发 
送 端 能 相应 地 调整 它 的 十 作 (例如 调整 传送 率 或 改变 差错 控制 机 制 )、 有 关 支 持 连 续 媒体 业务 
的 因特网 协议 ,包括 RTP/RTCP、 媒 体 点 播 的 实时 流 协 议 (RTSP) ,因特网 电话 的 话 路 启动 协议 
(SIP) ,用 于 广播 应 用 系统 的 话 路 通告 协议 (SAP) 以 及 话 路 撕 述 协议 (SDP) 的 细节 参见 参考 文献 
[62]。 
通常 ,加 在 不 同 网 络 层 的 传输 头 会 给 一 个 包 增加 大 约 40 FY. OWT PRI A SP BH 
之 问 的 合理 折 中 ,通常 采用 大 约 1500 字 节 的 大 数据 包 。 通 过 使 用 检验 和 , 包 中 的 某 些 比特 差 
错 可 以 被 检测 出 来 。 如 果 检 测 到 任何 比特 差错 , 则 这 个 包 就 被 完全 丢弃 挤 。 因 此 任何 收 到 站 
包 都 可 认为 是 无 比特 差错 的 。 丢 包 率 依赖 于 网 络 状况 ,在 高 度 防备 的 私人 IP 网 络 情况 下 可 能 
是 0 多 ,对 于 在 因特网 峰值 期 问 的 远 距 离 连接 , 则 可 高 达 30% 以 上 [6,81]。 使 用 RTP 时 ,用 序 
人 别 号 可 以 很 容易 地 发 现 琶 失 的 包 。 此 信息 可 传送 到 视频 解码 器 ,启动 解码 器 端的 错误 隐藏 。 
最 广泛 使 用 的 支持 本 地 因特网 通信 的 物理 网 络 是 以 太 网 ,具有 10 Mbps 的 带宽 。 更 先进 
的 网 络 包 括 快速 以 太 网 和 光纤 分 布 数 据 接口 (FDDI) 网络 ;二 者 都 支持 高 达 100 Mbps 的 码 率 。 
这 种 较 快 的 网 络 通常 用 于 企业 内 部 网 环境 中 。 
由 于 因特网 万 处 不 在 , 它 已 经 被 预见 为 传送 各 种 视频 业务 的 未 来 平台 。 然 而 ,由 于 因特网 
是 一 个 最 尽力 的 网 络 , 它 不 能 保证 无 差错 或 及 时 传输 ,所 以 因特网 上 视频 通信 的 差错 控制 是 一 
个 具有 挑战 性 的 倒 究 领 域 。 关 于 因特网 和 RTP/RTCP 协议 的 更 深入 讨论 参见 第 15 章 ,其 中 主 
要 讨论 因特网 上 的 视频 流 应 用 系统 。 
无 线 网 络 “外 对 不 同 的 环境 和 应 用 系统 ,存在 各 种 各 样 的 无 线 网 络 。 这 些 系统 具有 非常 
不 同 的 容量 、 覆 羔 范 围 和 误 码 特性 。 在 下 文 ,我们 简要 地 概括 不 同 的 无 线 业务 。 我 们 希望 指出 
的 是 ,无 线 通 信和 是 -个 发 展 迅 速 的 技术 ,在 这 本 书 到 达 读 者 手中 时 ,更 新 、 更 可 靠 和 更 快 的 业务 
很 可 能 忆 开始 实用 了 。 
蜂窝 网 络 [27] 传 统 上 是 为 移动 语音 通信 业务 开发 的 ;但 现在 已 经 发 展 到 允许 数据 通过 无 
线 调制 解 调 器 传送 。 码 率 限制 到 20 kbps 以 下 (有 效 载荷 码 率 更 低 )。 蜂 宣 网 络 也 可 以 连接 到 
基于 包 父 换 的 无 线 数据 网 络 , 允许 在 移动 用 户 与 因特网 上 的 有 线 终端 之 间 传输 数据 (例如 万 维 
网 浏览 应 用 )。 例 如 ,在 全 球 移动 通信 系统 (CSM) 中 使 用 的 基本 CPRS( 通 用 包 无 线 电 业务 ) 无 
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线 搂 人 网 络 .利用 时 分 多 址 (TBMA) ,在 单个 时 间 段 内 可 提供 9~ 21.4 kbps 的 有 效 上 载荷 比 特 率 ; 
而 改进 的 GPRS 无 线 接 人 技术 ( 称 为 增强 数据 率 的 CSM 进化 或 EDGE) 可 提供 8.8 ~ 59.2 kbps 
的 比特 率 [8]。 通过 使 用 多 个 时 间 肛 ,原始 码 率 可 高 达 170 kbps. oI FPS RET fi RE, HP 
离 某 站 越 近 ,但 率 越 饥 。 即 将 介 来 的 第 一 代 (3C) 无 线 系统 声称 ,通过 用 更 高 的 载 频 .更 宽 的 带 
宽 . 唱 复杂 的 多 路 接 人 JE SB PB DL BR EAR RR eA EB E 
围 。 户 外 码 康 范围 将 从 144 到 384 khps, 取 决 于 用 户 的 运动 速度 以 及 终 端 之 间 的 由 离 ; 室 内 码 
率 将 全 少 是 2 Mbps。 数 据 传输 的 谋 码 率 (BFR) 低 于 10“。 实 时 视听 首 信 将 是 3G 业务 的 -部 
分 , 通常 ,任何 尤 线 信 道 都 有 相当 大 的 噪声 , 纵 有 很 高 的 BER。 但 是 使 用 速率 和 白 适 应 调整 、 
FRC 和 ARQ 会 得 到 一 个 几乎 无 差错 的 数据 传输 环境 ， 对 于 ARQ 必须 受 限 的 视频 传输 ,我 们 
必须 处 理 相 当 高 的 BER MERE. ROE 14,3,2 季 中 进步 讨论 ,我们 考虑 用 H.223 多 路 
复 用 协议 进行 无 线 视频 传输 - 

无 线 局 域 网 指 用 无 线 连接 互 连 成 局 域 网 的 一 组 信息 设备 ( 遂 常 在 室内 , 毅 止 或 运动 缓慢 )。 
可 使 用 IP BASER ATM 协议 ,分 别称 为 移动 IP 和 无 线 ATM. 传统 IP 和 ATM 协议 需 适 应 无 线 
环境 的 主要 挑战 足 , 当 移动 终端 从 .个 接 人 点 的 复 盖 区 切换 到 另 一 个 覆盖 区 时 ,应 为 移动 节点 
提供 连续 的 网 络 连接 .并且 处 理 区 战 交接 。 可 达 划 的 比特 率 取 决 上载 频 。 例 如 ,遵从 IEEE 
802.11 标准 的 局 域 网 可 以 具有 的 比特 率 高 达 Lt Mbps( 有 效 负载 率 低 一 些 )。 当 用 户 千 近 接 人 
点 时 ,无线 局 域 网 中 的 连接 是 很 好 的 (例如 BER AEF 10-5); 而 当 用 户 远离 接 人 点 时 , 则 很 益 
(例如 BER 高 于 10”)。 天 包 率 收 决 于 包 的 尺 沾 以 及 包 内 所 售 的 差错 检测 和 纠 

宽带 无 线 上 P 网 是 指 家 庭 或 商业 用 /用 微波 盛 线 遇 通过 小 的 屋 硕 大 线 与 
特 网 。 包 括 多 信道 多 点 分 布 业务 (MMBS) 和 本 地 多 点 分 布 业务 (LMDS)。LMDS 采用 较 高 的 载 
频 ,因此 允许 比 MMDS( 高 达 1 Mbps) 移 高 的 码 率 (一 - 般 达 到 100 Mbps. 也 可 高 达 600 Mbps)。 然 
而 ,LMDS 只 在 基站 与 客户 站 点 之 问 很 短 的 范 | 川内 有 效 ( 是 3 英里 和 30 英里 的 对 比 关 系 )。 

表 14.1 概括 了 我 们 已 经 讨论 过 的 各 种 网 络 的 特 狂 。 各 种 雹 线 网 络 的 综述 可 参见 参考 文献 [9]。 


表 14.1 不 同类 型 的 无 线 网 络 



































网 络 码 率 移动 性 范围 信道 质量 
am 低 (<20 kbps) O AD © K (2500 98) 差 
无 线 数据 网 "HC 64 ~ 384 kbps) AFR) 长 (2500 K) & 

无 线 局 域 网 高 (2~25 Mbps) RCRA) W0) RT 
无 线 中 网 高 (1~ 600 Mbps, Fi PEHR) IRRA) 长 (3~30 英 甲 ) 好 





在 无 线 网 络 上 传输 视频 的 困难 在 于 低 带 宽 和 沿 误 码 率 (随机 误 但 以 及 由 多 径 误 落 效应 导 
致 的 长 突 发 性 盖 错 ) ,而 最 重要 的 是 可 用 带宽 和 冀 错 特性 的 波动 。 当 涉及 到 移动 关 时 ,这 种 变 
化 尤其 剧 似 。 因 此 ,无 线 视频 道 信 系统 在 速率 和 差错 复原 两 方面 都 必须 具有 自 适 应 性 。 为 了 
满足 这 种 要 求 ,对 于 无 线 视频 传输 的 大 多 数 建议 都 采用 具有 不 平等 益 错 保护 的 分 层 编码 。 值 
得 注意 的 是 ,对 于 实际 应 用 系统 ,用 相当 复杂 的 FEC 但 来 大幅 减少 BER。 实 际 系统 一 般 都 在 
估 通 编码 后 采用 某 种 形式 的 信道 复 用 践 , 它 也 经 常 包含 传输 捧 议 的 功能 ,由 此 进一步 降低 了 误 

大 多 数 无 线 交 三 式 多 媒体 通信 系统 部 采用 开 .223738] 及 其 “移动 扩展 "作为 面向 比特 信道 上 的 
传输 / 复 用 壕 议 [81]。 移 动 扩展 形成 了 -- 个 五 级 的 分 层 结构 , 它 可 实现 复 用 铝 杯 身 的 抗 误 码 健壮 性 
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与 复 用 器 开销 之 间 的 可 分 级 的 折 中 。 在 平均 突 发 差错 长 度 为 相 邻 16 比特 各 误 但 率 为 10 与 10 之 
间 的 情形 下 ,对 203 上 层 的 视频 编码 进行 了 人 景 研究 。H.223 以 可 灾 尺 寸 包 的 形式 传送 亿 括 斥 缩 
视频 在 内 的 媒体 数据 ， 一 般 包 的 尺寸 大 约 为 100 字 节 ,以 保证 好 的 迁 迟 特性 。 如 果 误 码 对 1203 协 
议 结构 的 破坏 超出 了 所 采用 级 的 修复 范 胆 (一 种 称 为 复 用 差错 的 情况 }, 那 么 整个 包 世 可 能 丢失 。 

















内 此 .在 H223 上 层 的 视频 传输 必须 解决 丢 包 问题 。 


关于 无 线 系统 视频 传输 中 所 涉及 问题 的 讨论 见 参 考 文献 [76,251。 无 线 IP 网 络 上 的 流 视 





频 将 在 第 15 章 中 进一步 讨论 。 


广播 信道 :地 面 ,电缆 .卫星 这 种 传输 环境 用 于 采用 MPEC-2 视频 编码 和 传输 流 的 数字 电 
视 广播 (包括 HDTV 节日 )。 压 缩 数 锯 通过 国定 长 度 (188 字 节 ) 的 传输 包 进行 传输 。 木 管 是 有 
线 还 是 无 线 物理 层 , 信道 编码 器 和 MPEG-2 传输 层 确保 良好 大 气 条 件 下 几乎 无 差错 的 环境 。 
对 于 SDTV ,可 骨 带 宽 被 划分 为 节日 频道 ,每 个 节 月 频道 的 传输 带宽 在 3 ~ 10 Mbps 之 间 。 对 十 
HDTV 一 般 分 配 20 Mbps 的 带宽 。 有 关 使 用 直接 广播 卫星 (DBS) 的 数字 电视 业务 .请 参看 参考 








文献 [55] 


R 14.2 概括 了 主要 视频 通信 应 用 系统 的 特性 ,包括 所 用 慰 准 .目标 网 络 以 及 传输 特性 ( 合 


如 包 的 尺寸 和 典型 的 误 码 率 )。 
RU? 主要 视频 通信 应 用 系统 的 特性 











应 用 和 标 ; 视频 编码 典型 视频 

ARIO 所 用 协议 标准 EBR ERY o 

ISDN BA, W221 1.261, H.263  64~384 kbps NA fi 

CHL. 320) (BER = 10°" ~ 1075) 

PSTN 视频 电话 H.223 11.263 20 kbps 100 字 节 很 少 的 比特 错 炭 和 

(H.324) Sty 

移动 视频 电话 HAO ke H263 10 ~ 300 kbps 100 TF BER = 107° ~ (0-3 

LH. 994 RER) fy H. 223 BARE 

fe Sita | 的 神 。H.225/FTP H.261.H.263, 10 ~ 1000 kbps <1500 宁 节 BER =0,0~ 30% t 

BE bt 323) JUDPAP H.262 

地 而 /有 线 /卫星 电视 。 MPEG2 系统 MPFG-2 HL 6~ 12 Mbps 188 RF 几乎 无 错 ， 
MER 

“本 地 ”ATM 上 H.222.0 H.262 1~ 12 Mbps. 53 学 他 IPH 

的 视频 会 议 (ATM 900) (CLR = 10-6 ~ 1074) 

(11,310, H.321) 





A: 不 可 应 用 ;时 .262 OFT MPEG-2 视频 ,而 11.222.0 PTE MPEG 2 Bek. 


14.3 ”传输 层 差错 控制 


从 本 节 开 始 ,我 们 计 论 为 视频 通信 开发 的 各 种 差错 控制 机 制 。 我 们 从 传输 层 差错 控制 开 





始 ,因为 通常 这 中 差错 控制 最 重要 的 部 分 。 它 提供 “个 基本 的 QoS 级 ,通过 编码 器 和 解码 器 中 








的 其 他 差错 控制 机 制 还 可 以 进步 提高 。 可 以 在 信道 编码 器 .打包 器 / 复 用 器 以 及 传输 协议 层 


进行 传输 层 差错 控制 。 让 本 节 分 别 对 这 些 方面 进行 讨论 。 
14.3.1 前 向 纠 错 {FEC) 


FEC 是 数据 通信 中 用 于 检 错 和 纠 错 的 最 常见 方法 [52]。 然 而 ,由 于 FEC 增加 了 传输 开销 ， 
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从 面 降低 有 效 载 荷 数据 的 可 用 带宽 ,在 带宽 有 限 但 可 以 容 名 一 定 程度 损失 的 视频 业务 中 ,必须 
HEH. 
当 将 FEC RIEME TEAR CRRA È LAT LOR SO Be. E 
F ISDN 视频 会 议 的 二 ,261 FRED (SS tA -个 18 比特 的 纠 错 码 并 于 附加 到 493( 一 个 填充 
比特 ,492 个 编码 比特 ) 个 视频 比特 上 ,形成 BCH(511、493) 码 。 加 入 - -个 附加 的 成 帧 比特 后 ,所 
得 到 的 数据 组 成 包含 512 比特 的 -- 帧 。FEC 码 能 在 每 帧 中 纠正 单个 比特 错误 和 检测 出 两 个 比 
FER. HAI FEC 机 制 也 能 用 于 RH.263[42, 附 件 H](14.7.1 节 )。 然 而 . 当 把 1.263 用 于 无 
线 网 或 因特网 寺 传 给 的 视频 时 ,由 于 帘 发 性 益 错 一 般 长 于 两 个 比特 , 这 种 记 法 不 是 很 有 用 AL 
此 很 少 使 用 。 本 节 中 讨论 的 其 他 传输 层 差 错 控制 技术 更 为 有 效 . 

对 于 基于 包 交 换 的 传输 来 说 ,应 用 纠 错 困难 得 多 , 因为 当 出 现 AER, GRRL 
让 个 比特 。 通 常 FEC 跨越 数据 包 使 用 ,使 得 包 雪 失 将 只 导致 PC 块 中 的 - -个 字 节 丢失 ”例如 ， 
在 Lee 方法 5] 中 ,用 里 德 - 索 罗 蒙 (Reed - Solomon, RS) 编 码 与 据 交 织 相 结合 来 恢复 丢失 的 ATM 
单元 。 如 图 14.5 所 示 , 对 每 个 28 字 节 的 数据 块 进行 RS(32,28,5) 编 码 , 形 成 32 字 节 的 块 。 
在 存 鱼 器 中 逐 行 应 用 RS 编码 直到 第 47 行 ,然后 从 存 钳 器 中 和 逐 列 污 出 数据 形成 22 个 AM 单元 的 
有 效 载荷 , 疾 附 如 一 个 守节 指明 序列 号 。 这 样 , 在 去 交织 后 ,在 解码 器 中 恰 测 到 下 失 .个 单元 对 
METHA 辽宁 节 的 行 中 榨 除 一 个 字 季 。32 个 单元 中 丢失 最 多 2 个 单元 都 能 够 恢复 。 大 联盟 













































































HDTV 广播 系统 已 采用 类 似 的 技术 米 抵 抗 传输 误 码 [10]。 在 参考 文献 [2] 中 Ayanoglu 等 研究 了 把 
FEC 用 于 无 线 ATM 中 的 MPEG-2 视频 。 用 FEC 在 字 节 级 进行 随机 误 码 校正 ,在 ATM 单元 级 进行 
单元 五 类 恢复 ”这 些 FEC 技术 已 在 单 层 或 双 层 MPEG 数据 中 采用 ， 
来 折 视 频 编码 器 的 数据 流 
al 
E 
Š 
5 
2 视频 数据 Bo Je 
£ 
x 
Y + 
be ---—-— 28- > 一 4 + 
图 14.5 HF ATM BC Et RANT ALR FEC MRR 
14.3.2 差错 复原 打包 和 复 用 





到 包 对 重建 视频 具有 的 影响 取决 于 压缩 的 数据 足 如 何 打 包 的 。 以 错误 可 隔离 在 -一 个 小 区 
城内 的 方式 打包 非常 重要 。 这 意味 着 不 能 讶 目地 把 压缩 的 比特 打 成 相同 尺寸 的 包 ; 而 应 该 按 
向 编码 算法 来 构建 包 , 以 便 包 能 包含 一 个 或 开 个 独立 编码 的 数据 块 、 例 如 ,对 于 MPEG 2 ii 
的 视频 ， -个 包 可 以 包含 一 个 或 儿 个 片 (slice) ,在 伍 个 包 的 开始 处 可 能 重复 图 像 头 信息 。 类 似 
地 ,对 于 H.263 编码 的 视频 ，- 个 包 可 包含 一 个 或 几 个 GOB( 块 组 )。 在 因特网 中 支持 这 种 应 
用 层 已 知 的 打包 , 称 为 应 用 层 成 帧 (ALF)[13]。 在 支持 包 尺 寸 可 变 的 网 络 中 ,希望 使 用 最 大 可 
能 的 包 , 使 由 于 包头 和 包 处理 开 销 所 引起 的 有 效 但 率 下 降 最 小 例如 ,在 因特网 上 ,最 大 传输 
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单元 (MIU) 大 约 是 1500 字 节 。 这 个 尺寸 对 于 包装 来 自 片 或 GO 的 数据 足够 大 。 对 于 低 比 特 
率 的 交互 式 应 用 系统 ,可 接收 的 延迟 会 把 最 大 包 尺 十 限制 到 一 个 比 MTU 小 得 多 的 值 。 在 这 种 
情况 下 ,可 用 包头 压 峭 来 降低 开销 L13]。 

如 前 所 述 ,对 于 因特网 上 的 视频 传输 ,一 般 使 用 RTP/UDP/P 协议 栈 。RTP 通过 定义 RTP 
有 效 载荷 格式 [73,32,15,7] 提 供 对 各 种 视频 编 色 格式 的 支持 。 有 关 H.261, 11.263 , MPEG-1 和 
MPEC-2 的 有 效 载荷 格式 的 详细 描述 参见 参考 文献 [13]。 

为 了 防止 由 于 单个 包 的 天 失 造 成 邻近 块 的 丢失 ,可 采用 交织 打包 ;通过 交织 打包 ,来 自 相 
邻 抉 或 行 的 数据 被 放 到 分 离 的 包 中 ,如 图 14.6 所 示 。 这 样 , 受 损 的 块 将 被 未 受 损 的 块 所 包围 ， 
曙 于 在 解码 器 中 进行 错 冯 隐藏 。 注 意 ,在 传输 层 使 用 交织 打包 要 求 信 源 编码 器 只 在 被 由 继 打 
包 的 块 范围 内 进行 块 级 的 预测 。 这 将 稍微 降低 预测 效率 。 同 样 , 不 得 不 重复 某 些 包头 以 便 使 
每 个 收 到 的 包 是 可 自 解码 的 。 例 如 ,在 图 14.6 所 示 的 打包 格式 中 ,在 两 个 包 中 应 重复 每 帧 的 
头 信息 (包含 偶数 行 和 奇数 行 数据 ) 。 


fal a2 43 包 4 





















































BLAS bun 2 wo 
俩 行 数据 奇 行 数 据 PTB 奇 行 数据 











图 14.6 一 个 交织 打包 示例 


影响 视频 通信 差错 特性 的 另 -个 因素 是 ,视频 如 何 与 其 他 数据 (音频 控制 ) 复 用 以 及 如 
呵 保护 包头 。 复 用 头 信息 中 的 一 个 错误 可 能 导致 视频 数据 被 误 传 ,引起 在 接收 端 大 块 数据 的 
消失 。 为 了 防止 这 类 事件 发 生 , 每 个 包 一 般 都 由 一 个 长 同步 标志 引导 ,同时 用 FEC 对 包头 加 
重 保护 。 一 个 成 功 的 例子 是 复 用 标准 H.223[38], 它 是 在 H.324 系统 下 为 低 比特 率 多 媒体 通 
售 开 发 。H ,223 为 支持 电路 交换 网 络 (例如 有 线 和 无 线 调制 解 调 器 ) 的 多 信 源 数据 复 用 而 设 
ib. 223 提供 一 个 分 层 的 多 级 复 用 结构 , 允许 在 复 用 器 本 身 的 抗 误 码 健壮 性 与 复 用 器 所 引 
人 的 开销 之 间 进 行 可 分 级 的 折 中 。 第 0 级 用 于 有 线 环境 ,在 包头 上 用 短 同步 标志 而 不 用 FEC 
较 高 的 级 针对 较 易 出 销 的 环境 (如 移动 无 线 调制 解 调 器 ), 使 用 较 长 的 同步 标志 和 较 强 的 包头 
保护 - 


14.3.3 有 延迟 根 制 的 重 传 


除了 低层 的 差错 控制 机 制 (例如 FEO ,差错 复原 打包 及 复 用 外 ,上 层 传输 协议 可 进行 差错 控 
il,- 般 采 用 ARQ 形式 ,根据 检测 ,对 丢失 的 或 过 度 延迟 的 包 请 求 重 传 ,如 TCP 中 所 做 的 那样 。 
重 传 已 非常 成 功 地 用 于 间 实 时 数据 传输 ,但 由 于 会 引 人 延 迟 .一 般 认为 对 于 实时 视频 应 用 是 不 可 
接受 的 。 事 实 上 ,情况 并 非 疙 是 这 样 。 例 如 ,对 于 洲际 交互 式 业务 ,一 次 重 传 只 增加 大 约 70 ms 的 
延迟 ,这 是 可 以 接受 的 [59]。 对 于 单 向 实时 视频 应 用 ,如 因特网 流 视频 和 广播 ,延迟 容 限 可 进 -- 
步 放宽 到 几 秘 钟 ,从 而 可 进行 若 二 次 重 传 。 间 传 也 被 认为 不 适用 于 多 点 视频 会 议 ,因为 来 自 大 量 
解码 器 的 重 传 请 求 会 使 编码 器 不 知 所 措 。 然 而 , 当 在 多 点 会 议 中 使 用 多 点 控制 单元 (MCU) 叶 , 编 
BSA MCU 之 间 的 通路 以 及 MCU 与 解码 器 之 间 的 通路 只 是 简单 的 点 对 点 ， 重 传 可 分 别 用 于 这 
些 道路 。 关 于 使 用 重 传 的 另 一 个 考虑 是 , 它 可 能 使 问题 变 得 更 糟 ,因为 它 将 增加 更 多 的 网 络 通 
信 , 从 而 进一步 增加 球 包 率 。 然 庙 , 如 果 适 当 控制 重 传 ,就 可 以 提高 端 到 端的 质量 。 例 如 ,编码 器 
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可 降低 其 当前 输出 码 率 ,以 使 编码 带 输 出 与 重 传 数据 之 和 保持 在 给 定 的 总 码 率 之 下 . 

显然 ,对 了 实时 应 用 系统 .必须 对 重 传 加 以 限制 ,以 使 丰 入 的 延迟 在 可 接受 范 川 之 内 。 不 是 
像 TEP 那 样 ,不 确定 地 尝试 重 传 以 恢复 丢失 的 包 , 尝 试 重 传 的 次 匈 可 以 由 所 期 鹿 的 延迟 和 而 决定 
[53]。 也 可 把 分 层 编码 (14.4.4 节 ) 与 赋 闻 优先 权 的 重 传 结合 起 来 ,把 分 层 编码 器 中 某 本 层 的 包 
放 到 重 传 队列 的 前 面 以 增加 基本 层 的 重 传 尝试 次 数 [64]。 最 后 ,在 每 一 次 单个 重 传 党 达 中 可 发 
送 天 失 包 的 多 个 副本 ,希望 至 少 有 一 个 及 时 通过 |981. 可 以 根据 人 包 的 重要 性 来 决定 重 传 尝试 的 
次 数 和 丢失 包 的 重 传 剖 本 数 自 。 例 如 ,基本 层 包 可 重 传 几 次 ,每 次 有 多 个 削 本 ,而 增强 层 包 则 可 
简单 地 放弃 . 另 一 个 专门 为 流 视频 应 用 系统 设计 的 限制 重 传 方案 将 在 第 15 章 说 明 。 


14.3.4 不 平等 差错 保护 


压缩 视频 比特 流 中 的 二 进 制 比 特 并 应 同等 重要 ,例如 ,在 基于 块 的 混合 编码 内 中 ,图 像 头 
利 其 他 辅助 信息 比 决 数据 重要 得 多 。 这 紫 重 归 比 特 应 受到 重点 保护 ,以 使 它们 以 低 得 多 的 涡 
码 率 传 输 ， 当 在 信 源 编码 髓 中 使 用 分 层 编码 时 (14.4.4 节 ), 传 给 控制 准 必 须 为 不 同 的 层 分 本 
二 当 的 优先 级 ,这 是 一 种 传输 层 控制 形式 。 

不 同 网 络 可 以 用 不 同方 法 实现 传输 优先 级 。 在 ATM 网 络 中 ,ATM 单元 头 小 有 有 -个 比特 表 
相 其 优先 线 。 当 出 现 遂 信 拥塞 时 .网 络 和 点 可 选择 首先 到 弃 低 优先 级 的 单元 ， 在 无 线 网 络 小 
也 可 通过 用 不 阿 的 功率 传输 子 流 来 实现 传输 优先 权 、 在 内 特 网 中 ,最 新 的 RIP 规范 定义 了 传 
输 分 层 视 频 比 特 流 的 一 般 机 制 [63]。 也 有 有 的 网 络 通 过 区 分 业务 来 支持 优先 级 传输 [4] TE 
在 无 线 网 还 是 存 因 特 网 中 ,都 可 以 对 不同 的 层 使 用 不 同 的 关 错 控制 处 理 来 实现 优先 级 。 例 如 ， 
重 传 和 较 蝇 的 FEC 可 应 用 于 基本 层 , 市 不 重 传 和 较 弱 的 PEC 可 用 于 增强 层 。 人 在 极端 情况 下 ， 
可 以 对 最 重要 的 信息 进行 复制 ， 例 如 , MPEG 视频 建议 对 图 像 尖 信息 和 量化 引 阵 进行 其 次 传 
输 [70]。 提 供 不 同 级 别 保护 的 吨 一 个 方法 是 用 不 同 的 传输 协议 。 例 如 , 在 参考 文献 :14] 中 所 
述 的 视频 点 播 系统 中 ,在 会 话 前 ,用 TCP 传输 枢 少 量 的 尚 优先 级 数据 (会 话 控制 数据 ); 而 在 会 
话 期 间 , 对 于 低 优先 级 数据 (视频 数据 ) 采 用 UDP, 
































14.4 ”差错 复原 编码 


[一 和 描述 了 条 以 在 传输 层 实行 的 各 种 益 错 控制 机 制 。 这些 方法 用 于 编码 的 视频 流 , 试 
` 纠 正 错误 以 及 (如 果 有 必要 上 且 可 行 的 话 ) 芋 传 受 损 的 数据 “即使 应 用 这 些 方法 也 不 可 

完全 纠正 荆 错 ,因而 解码 器 接收 到 的 比特 流 仍 可 能 含有 上 关 错 (比特 错误 以 及 天 包 )。 在 本 节 
中 ,我 们 描述 能 产生 对 传输 误 公 共有 健壮 :性 的 比特 流 的 信 源 编码 方法 ,使 得 差错 不 会 对 解码 器 
的 工作 产 千 不 良 影 响 以 及 导致 重建 视频 质量 不 可 接受 的 失真。 

与 编码 效率 最 优 的 信 源 编码 器 相 比较 ,这 种 编码 器 一 般 效率 较 低 , 办 为 在 没有 任何 传输 差错 
情况 下 用 较 多 的 比特 来 获得 相 问 的 视频 质 呈 “这些 额外 的 比特 称 为 元 余 比 特 9; 引入 这 些 比特 是 
为 了 当 比 特 流 被 传输 错误 措 坏 时 提高 视频 质 基 。 盖 错 复原 编码 的 设计 目的 是 ,在 假定 的 信道 环境 
下 ,对 于 给 定 的 克 余 昌 达 到 最 佳 的 解码 视频 质量 ,或 者 在 保持 规定 质量 水 平 的 同时 使 引 入 的 气 余 度 
城 小 。 有 许多 把 EC 余 度 引入 比特 流 的 方 汰 。 某 些 技术 有 助 于 隔离 差错 (14.4.1 节 ), 而 另外 一 些 技术 





























D 这 类 比特 也 称 为 开销”。 
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则 使 解码 辟 能 根据 差错 检测 进行 更 好 的 错误 隐 蔚 (14.4,2 节 和 14.4.1 节 )。 还 有 另外 -- 类 技术 ,其 日 
的 是 保证 基本 级 别 的 质量 ,并 囊 根 据 出 现 的 传输 错 澡 提 供 送 度 的 降 质 (14.4.4 节 利 14.4.5 节 )。 


14.4.1 错误 隔离 





虑 继 视 频 流 对 传输 错误 敏感 的 一 个 主要 原因 是 视频 编码 器 用 VLC 表示 各 种 符号 。 在 码 
学 中 的 任何 比特 错误 或 比特 丢失 不 仅 使 该 码 字 不 可 解 得 ,也 使 正确 地 接收 的 后 续 码 字 不 可 解 
代 或 解 出 错误 符号 。 错 误 隔 离 歧 术 顾名思义 是 试图 把 传输 错误 的 影响 隔离 在 -个 有 限 的 区 域 


内 。 这 经 常 可 以 通过 在 压缩 














比特 流 中 放 入 “ 重 同步 标记 "以 及 通过 所 谓 “ 数 据 分 着 "技术 来 实 





现 。 “者 都 已 吸收 入 MPEG-4 和 H.263 标准 中 。 


播 入 重 同 步 标记 “提高 编码 器 差错 复原 能 力 的 一 个 简单 而 有 效 的 方法 是 周期 性 地 插入 重 
同步 标记 。 这 些 标记 被 设计 成 容易 与 所 有 其 他 码 字 及 其 轻微 扰动 后 得 到 的 码 字 区 别 开 来 。 通 
常 在 重 同步 信息 后 紧 接着 EE, 
信息 )。 这 样 ,解码 器 可 以 通过 检测 重 同步 标记 重新 开始 正确 的 解码 。 显 然 ,插入 重 同步 标记 
会 降低 编码 效率 。 首 先 ,这 种 你 记 越 长 和 越 频繁 ,所 用 的 比特 就 越 多 。 其 次 ,使 用 重 同步 标记 
- 般 会 中 断 图 像 内 的 项 测 机 制 ,如 MY 或 DC 系数 的 预测 ,从 而 会 增加 更 多 的 比特 。 但 较 长 的 
和 频繁 插入 的 标记 也 会 使 解 但 器 较 快 地 重新 获得 同步 ,从 而 使 传输 差错 只 影响 重建 帧 中 较 小 


《有 关 空 间 和 时 间 位 置 或 为 解码 后 续 比 特 所 需要 的 其 他 























的 区 域 。 因 此 ,在 实际 视频 编码 系统 中 ,使 用 相对 长 的 同步 码 字 。 
数据 分 刘 没有 和 任何 其 他 差错 复原 工具 的 情况 下 ,在 出 错 的 位 置 与 后 面 的 第 一 个 同步 标记 





之 间 的 数据 将 不 得 不 被 丢弃 。 
成 更 小 的 逻辑 单元 ,在 它们 中 








为 了 达到 和 较 好 的 错误 隔离 ,两 个 同步 点 之 问 的 数据 可 进一步 划分 
间 使 用 一 级 术 记 。 这 样 ,在 出 错位 置 前 的 多 氏 单元 仍 可 被 解码 。 二 





级 标记 可 以 比 一 级 标记 短 , 因为 它们 只 需 与 紧 接 在 它们 前 面 的 逻辑 单元 中 的 数据 不 同 就 可 以 。 
这 种 方法 局 用 于 MPEG-4 和 也 -263 标准 的 差错 复原 模式 中 ,用 这 种 方法 把 片 或 COB 中 所 有 宏 块 
WERK EIRENE DCT 系数 放 在 分 离 的 罗 钳 单元 中 。 这 样 ,如 果 在 包含 DCT 系数 的 逻辑 


单元 中 发 生 错 误 , 那 么 前 面 的 








逻 钥 单元 中 所 包含 的 宏 块 头 和 运动 信息 仍 是 可 解 但 的 。 


14.4.2 ”健壮 的 二 进 制 编码 


除了 通过 插 人 网 步 码 字 或 把 数据 分 割 成 独立 段 进行 错误 隔离 外 ,也 可 直接 修改 二 进 制 编 
码 放 法 ,以 使 产生 的 比特 流 对 传输 错误 更 其 有 健 半 性 。 我 们 给 出 两 种 这 类 技术 。 


可 逆 的 变 长 编码 {RVLC 


) 在 前 面 的 讨论 中 ,我 们 假设 一 旦 发 生 错误 , 解 公 器 就 会 丢弃 所 


有 的 比特 ,直到 识别 出 重 同 步 码 字 为 止 。 用 RVLCL 72) ,解码 器 不 仅 能 解码 重 同 步 码 字 之 后 的 
比特 ,也 能 从 后 向 解码 下 一 个 重 同步 码 字 之 前 的 比特 ,如 图 14.7 所 示 。 这 样 ,用 RVL HER 


较 少 的 止 确 接收 的 比特 , 缩 / 
解码 器 输出 之 问 的 交叉 校 验 





传输 错误 所 影响 的 区 域 。 通 过 适当 增加 复杂 度 ,提供 前 向 和 后 向 
能 力 ,RVLC 也 有 助 于 解码 器 检测 出 用 不 可 逆 VLC 所 检测 不 到 的 


链 误 , 或 者 提供 有 关 错 误 位 置 的 更 多 信息 , 从 而 减少 不 必要 役 弃 的 数据 量 。 在 MPEG- 利 





日 .263 中 都 采用 了 RYLC, 与 


同步 标记 搬入 和 数据 分 割 配合 使 用 -。 


CO 注意 ,这 里 及 述 的 数据 分 唱 与 11.1.4 节 沾 所 描述 的 生 戌 可 分 级 比特 流 的 数据 分 割 不 同 。 在 那里 ,表示 所 有 宏 克 的 头 、 


MV ,也 许 还 有 前 几 个 DCT 系数 的 比特 被 族人 基本 层 流 中 ,而 所 有 宏 块 的 其 余 比 特 被 改 入 一 个 或 多 个 增强 层 流 中 。 这 
困 , 唆 个 重 交 步 标记 之 间 所 包括 的 宏 块 中 不 同 逻辑 单元 的 数据 被 顺序 地 排列 , 咎 成 单个 比特 流 。 
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© 前 向 解码 


G) 后 向 解码 





图 14.7 可 以 前 向 和 上 后 向 解析 RVLC 码 字 ,从 而 能 够 从 受 损 的 数据 流 中 恢复 更 多 的 数据 


虽然 在 设计 变 长 码 时 有 “可 道 性 "约束 ,但 应 用 RVLC 并 不 一 定 导致 编码 效率 下 降 。 事 实 上 
己 经 证 明 ,压缩 视频 数据 (例如 己 量 化 和 游程 编码 的 DCT 系数 ,MV 差 值 ) 可 由 所 谓 的 “广义 高 斯 
分 布 "(GGD) 很 好 地 建 模 , 能 够 以 接近 理想 的 效率 用 高 乐 - 瑞 斯 (Colomb - Ricc,CR) 和 指数 -高 乐 
《exp-Golomb,EG) 码 进行 粹 编码 。EG 码 比 GR 码 更 有 吸引 力 , 因 为 即使 在 模型 分 布 与 实际 数据 不 
匹配 时 其 性 能 也 很 稳定 。 因 此 ,对 于 大 多 数 视 频 序列 ,用 固定 的 EG 码 表 可 能 接近 最 佳 的 效率 。 
GR 和 EG 码 都 有 很 好 的 结构 。 这 使 得 不 用 查 表 法 进行 粹 编码 和 解码 以 及 设计 有 完全 相同 的 编 
码 效 率 的 GR 和 EG 码 的 可 逆 形 式 成 为 可 能 。 关 于 如 何 设计 与 GR 和 EC 码 具有 相同 编码 效率 的 
RVIC 表 的 更 详尽 描述 在 参考 文献 [86] 中 给 出 。 除 了 提供 前 向 和 后 向 解码 结果 的 交叉 校 验 能 力 


外 ,RVDC H 





决 ) 的 可 变 1 


可 道 和 不 可 


























t 不 可 逆 VLC 能 提供 更 好 的 检 错 能 力 (而 且 在 某 些 情 况 下 有 更 好 的 纠 错 能 力 )。 关 于 
DÈ VLC 解码 器 工作 的 更 详尽 分 析 和 比较 在 参考 文献 [85] 中 给 出 。 

292 RAG (EREC) EREC 方法 不 是 用 同步 码 字 使 解码 器 能 重新 开始 解码 ,而 是 利 
重 排 编 码 比特 的 方法 使 解码 器 在 每 个 块 的 起 始 处 重新 获得 同步 [60]。 具 体 地 说 ,来 自 块 组 (或 宏 
长 比特 流 被 分 布 到 相向 尺寸 的 时 间 段 上 。 起 初 ,每 个 图 像 块 的 编码 数据 被 全 部 或 部 分 























地 放 到 为 该 块 指定 的 时 间 段 上 。 然 后 ,用 一 个 预定 义 的 偏 移 序列 寻找 空 的 时 间 段 ,以 放置 比 时 间 
段 大 的 那些 块 的 任何 剩余 比特 。 这 样 做 下 去 直到 所 有 比特 都 包装 到 一 个 时 间 段 中 。 由 于 每 个 时 
阅 段 的 尺 二 是 固定 的 ,所 以 解码 器 在 每 个 块 开始 时 可 重新 得 到 同步 。 这 也 确保 每 个 块 的 开始 处 
比 结束 处 更 不 受 误差 积累 的 影响 。 由 于 EREC 不 插入 用 于 同步 的 任何 比特 ,所 以 引入 的 元 余 可 


Zo EREC 在 MPEC-2 和 H. 263 编码 器 中 的 应 用 已 在 参考 文献 [71,48] 中 考虑 。 
14.4.3 差错 复原 预测 
正如 我 们 已 经 看 到 的 ,VLC 的 使 用 使 压缩 比特 流 对 传输 错误 非常 敏感 。 人 敏感 的 另 一 个 主要 原 











因 是 时 间 预 测 的 使 用 。 一 旦 发 生 误 码 ,解码 器 重建 的 帧 与 编码 器 所 星 现 的 不 同 ,解码 器 所 用 的 参考 
帧 从 该 点 往 前 就 会 与 编码 器 所 用 的 不 同 ,从 而 所 有 后 续 的 重建 帧 都 将 有 差错 。 这 种 误差 积累 的 影 
响 已 经 示 于 图 14.2。 对 DC 系数 和 MV 使 用 空间 预测 也 会 引起 误差 积累 ,尽管 误差 积累 限制 在 同一 



































帧 范围 内 。 差 错 复 原 预 测 是 指 限制 预测 环 从 而 把 误差 积累 限制 在 一 个 短 时 间 间 隔 内 的 技术 。 
插入 帧 内 块 或 帧 阻止 时 域 误差 积 累 的 一 种 方法 是 周期 性 地 插 人 巅 内 编码 图 像 或 宏 块 。 
用 工 帆 可 能 引起 输出 比特 率 的 波动 ,因此 由 于 延迟 限制 ,对 于 交互 式 应 用 系统 这 一 般 是 不 可 接 
































SH. WA 





这 类 应 用 ,使 





足够 多 的 帧 内 编码 宏 块 是 一 种 有 效 且 可 分 级 的 差错 复原 工具 。 














当 为 了 差错 复原 目的 采用 帧 内 编码 宏 块 时 ,必须 确定 此 类 宏 块 的 数目 和 它们 的 空间 放置 。 
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所 需 的 帧 内 编码 安 块 的 数 晶 取决 于 信道 质量 和 传输 层 所 用 的 益 错 控制 机 制 。 许 多 实际 系统 提 
供 关于 网 络 质量 的 信息 或 获得 此 类 信息 的 启发 式 方法 。 例 证 包括 无 线 环境 中 的 天 线 信 叶 强度 
或 关于 因特网 连接 的 RTCP 接收 嚣 报告。 参考 文献 [67] 中 的 研究 分 析 了 解码 器 总 失真 对 编码 
器 的 帧 内 编码 宏 块 比率 ,信道 编 码 可 率 (假设 为 里 德 - 索 罗 蒙 编 砂 ) 以 及 信道 误 码 参数 (随机 丢 
失 率 和 突 发 误 码 长 度 ) 的 依 环 性 。 基 于 这 种 关系 ,对 于 给 定 的 信道 误 码 特 件 ,可 找到 最 佳 的 帧 
内 编码 宏 块 比率 和 (或 ) 信 道 编码 速率 

对 于 帧 内 编码 宏 块 的 空间 放 普 ,所 建议 的 万 法 可 分 成 启发 式 最 优 或 率 撩 真 最 优 丙种。 启发 式 
方法 包括 随机 放置 和 沿 活 动 区 放置 。 混 合 方案 中 还 考虑 了 对 于 给 定 的 必 块 最 后 -… 次 由 内 更 新 的 时 
疗 、 这 些 方法 简单 日 一 般 上 作 得 很 好 。 率 失真 优化 方法 可 进 “. 步 改善 性 能 ,但 以 增加 编码 器 复杂 
度 为 代价 。 

同 想 在 没有 传输 误 码 的 情况 下 ,可 以 基于 由 不 同 模式 获得 的 率 失 真 折 中 来 确定 每 个 宏 块 的 
编码 模式 (9.3.3 节 )。 理 想 情 况 下 ,应 该 采用 使 每 个 比特 对 应 失真 度 降低 最 大 的 模式 。 为 差错 复 
原 的 日 的 ,可 以 采取 同样 的 RD 最 优化 方法 ,但 编码 器 必须 考虑 的 事实 起 , 当 计算 与 每 个 编码 模 
式 有 关 的 失真 时 ,当前 的 宏 块 和 以 前 的 宏 块 可 能 丢失 。 已 在 这 种 框 保 上 提出 了 儿 种 方法 .但 它们 
在 计算 解 的 器 中 所 期 望 失真 的 方法 以 及 信道 误 码 模型 化 方法 方面 有 所 不 同 [17,94,89] 。 

例如 ,参考 文献 [17] 中 的 算法 取 丢 包 率 p 的 中 期 质 测 作为 输入 ， 每 个 宏 块 以 帧 内 模式 、 巾 
间 模 式 以 及 跳 过 措 式 进行 编码 ;对 于 每 一 种 模式 ,假设 无 损 的 宏 抉 传输 ,测量 产生 的 速率 R 
(mode, ) 和 失真 Di (mode, )。 然 后 ,对 于 同一 组 编码 便 式 ,在 假设 编码 的 宏 块 在 传输 期 间 受 损 
的 情况 下 ,计算 另 一 组 失真 D,(mode; )。 在 前 面 的 失真 测量 中 ,要 考虑 在 帧 间 编 码 宏 块 中 误 盖 
积累 的 影响 以 及 在 解码 器 中 对 丢失 宏 块 的 错误 隐 丫 。 对 于 每 -- 种 编码 模式 ,确定 期 望 的 失真 
D(mode, ) = (1 ~ p} D, (mode, ) + pD, (mode, Ja 确定 得 到 最 优 的 率 失 真 折 中 的 编码 模式 。 这 是 
通过 对 于 不 同 模式 ,对 于 一 个 固定 的 4 RET TT PME (mode, ) + ARCmode, ), 计 且 寻 找 具 
有 最 小 拉 格 朗 日 极 香 的 模式 实现 的 。 拉 格 朗 日 因子 4 是 基于 目标 比特 率 选 笃 的 。 

最 后 , 当 可 利用 反馈 信道 时 ,可 传送 有 关 玉 失 或 损坏 的 宏 块 数据 信息 ,以 启动 发 送 端的 由 
内 编码 。 在 14.6 节 将 讨论 这 些 方案 。 

独立 的 分 段 预 测 ”限制 误差 积累 范围 的 另 -种 方法 是 把 数据 域 分 割 成 儿 个 段 , 并 只 在 同 
一 个 段 内 进行 时 间 和 空间 预测 。 这 样 , 一 个 段 中 的 误 码 不 会 影响 另 一 个 段 。 例 如 ,一 个 项 可 以 
分 为 多 个 区 域 (例如 一 个 区 域 可 以 是 一 个 GOB 或 一 个 片 ), 并 且 区 域 1 只 能 四 前 一 帧 的 区 域 1 
进行 预测 。 在 F263 中 这 称 为 独立 分 段 解体 (ISD)。 

这 一 类 中 的 另 - -种 方法 是 作 一 段 中 包括 偶 索 引 的 帧 而 在 另 - - 段 巾 包括 奇 索引 的 帧 。 这 
样 , 偶 帧 只 电 偶 帧 进行 顶 油 。 这 种 方法 称 为 视频 元 余 度 编码 ,已 被 纳入 HH.263[87,88] 中 。 它 
也 可 被 认为 是 一 种 实现 多 描述 编码 的 方法 ,将 在 14.4.5 节 中 描述 。 
14.4.4 具有 不 平等 差错 保护 的 分 层 编码 

分 层 编码 (1.C) 是 指 把 视频 编码 成 一 个 基本 层 和 一 个 或 几 个 增强 层 。 基本 层 提供 低 的 但 
可 接受 的 质量 ,而 每 一 个 附加 的 增强 层 递增 地 改善 质量 。 如 第 11 章 所 述 ,分 层 编码 是 可 分 级 
编 介 的 一 种 特 钨 情况 , 它 使 有 不 同 带宽 容量 或 解答 能 力 的 接收 机 以 不 同 质 量 访问 局 一 个 视频 
流 。 典 型 的 实现 包括 SNR 可 分 级 、 空 间 可 分 级 以 及 时 间 可 分 级 编码 ( 见 [1.1 节 和 13.5.3 节 )。 
为 支持 差错 复原 性 能 ,分 层 编 码 必须 与 传输 系统 中 的 不 平衡 差错 保护 (14.3.4 节 ) 结 合 使 用 ,以 
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加 强 对 基本 层 的 保护 。 图 14.8 示 出 -- 般 的 两 层 编码 利 传输 系统 的 方 框图 
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Bias 个 使 用 分 层 纲 码 和 优先 级 传输 的 系统 的 方 框图 


分 层 编码 中 的 7C 余 度 主 芝 有 两 个 来 源 。 第 一 ,为 了 避免 误差 积累 ,增强 层 可 选 笃 只 用 基本 层 的 
帧 作为 时 域 预 测 的 参考 帧 。 在 这 种 情况 下 ,将 降低 磊 测 增益 利 随 之 而 来 的 编码 效率 。 第 二 ,在 每 层 
中 必须 传输 相似 的 边 信息 (例如 头 信 息 ,编码 异 式 以 及 MY)。 人 参考 文献 [1] 中 介绍 了 对 MPEC-2 中 不 
同 可 分 级 模式 的 化 余 度 与 差错 复原 性 能 之 间 所 做 的 折 中 .对 视频 在 无 线 网 络 上 传输 所 用 的 分 层 编 
公 和 不 平衡 差错 保护 已 经 进行 了 广泛 的 研究 ;例如 参考 文献 [95,46,31,24]。 


14.4.5 多 描述 编码 
当 基本 层 在 一 个 基本 上 无 误 码 的 信道 中 传输 时 ,通过 强 FEC 和 重 传 前 “小节 所 描述 的 分 层 编 


码 可 提供 2 














: 错 复原 性 能 。 然 而 ,在 某 些 应 ee a a EEE ET BUC E 


Ao CERCAPNAOL TP EASE ELAS of SRE IL IR eR. EGTA RHR Ag Bb 
方法 是 使 用 多 描述 编码 (MDC)。 用 这 种 编码 方案 ， ARR- 个 源 信忠 的 几 个 比特 流 ( 称 为 描述 ) 并 在 
分 离 的 信道 上 传输 。 每 个 信道 可 能 会 御 时 地 中 断 或 遭 到 长 的 突 发 误 友 ， 丰 信和 宿 端 ,根据 哇 几 个 拭 
述 被 下 懈 地 接收 南 启 用 不 同 的 重建 方案 (或 解码 其 )。MDC 编码 器 和 解 辜 器 的 设计 使 遂 过 任何 一 个 
博 述 重建 的 信和 好 的 质量 都 是 可 接受 的 ,而 卫 用 附加 的 描述 可 达到 递增 的 改善 。 双 描述 编码 器 的 概 
念 如 图 14.9 记 示 。 在 本 例 中 , 信 答 有 三 个 解码 器 ,并 五 在 任意 给 定 的 时 间 只 有 一个 [ 作 。 
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合用 MDC 时 ,传输 不 同 描述 的 信道 可 以 是 信 源 与 信 宿 问 不 同 的 物 蛙 途径 ,例如 专用 虑 线 
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网 或 因特网 之 类 的 包 交 换 网 络 。 即 使 当 信 源 和 信 宿 之 问 只 存在 一 个 物理 路 径 时 ,该 路 径 也 可 
以 用 时 间 交 织 ,. 频 分 复 用 等 划分 成 若干 虚拟 的 信道 。 例 如 , 在 国 特 网 中 ,如 果 包 尺寸 相对 较 大 ， 
并 日 其 个 描述 被 放 在 交替 的 包 和 中 ,那么 丙 个 描述 的 损失 特性 将 接近 于 相 筷 独立 。 

由 寺 每 种 描述 要 提供 可 接受 的 质量 ,所 有 的 描述 都 必须 共享 某 些 信 源 的 基本 信息 ,因此 它 
们 : - 定 是 相关 的 。 这 种 相关 性 使 解码 器 能 由 接收 到 的 描述 估计 丢失 的 描述 。 另 一 方面 ,这 种 
相关 性 也 是 MDC 中 宛 余 度 的 来 源 。MDC 比 LC 的 优越 之 处 在 于 它 不 需要 网 络 的 专门 设备 来 
提供 可 靠 的 子 信道 。 例 如 在 噪声 很 大 的 网 络 中 ,必须 启用 大 量 重 传 或 者 必须 在 FEC 中 添加 大 
景 的 元 余 以 实现 无 差错 传输 。 在 这 种 情况 下 ,用 MDC 可 能 更 有 效 。 

为 了 达到 它们 各 自 的 目标 ,LC 用 分 屋 的 ,去 相关 的 分 解 ,而 MDC 用 非 分 层 的 、 相 关 的 分 
AR. 已 经 提出 了 一 些 完 成 此 类 分 解 的 方法 ,包括 重 倒 量 化 [74,44, 21] .相关 预测 器 [34] ,相关 
线性 变换 [80,28] RARER ELEMI, 12] .相关 滤波 器 组 [91,65,45] 上 以 及 交织 的 空间 - 
I 时间 采 样 [79,871。 在昌.263 标准 中 ,交织 的 时 间 采 样 方法 称 为 视频 元 余 编码 。 下 面 ,我 们 用 
相关 线性 变换 更 详细 地 描述 这 种 方法 。 

多 描述 变换 编码 [MDTC) ”在 这 种 方法 中 ,对 原始 信号 样 点 进行 线性 变换 以 产 尘 相关 的 
系数 组 。 理 起 情况 下 的 安 换 应 该 是 ,变换 系数 可 以 被 分 成 许多 组 ,使 不 同 组 之 间 的 系数 是 相关 
Bo DOE ,如 果 在 传输 期 间 技 失 了 某 些 系数 组 ,它们 能 够 由 接收 到 的 组 进行 估计 。 为 了 合 编 但 
黎 率 的 柑 失 最 小 ,同一 组 内 的 系数 应 当 是 不 相关 的 。 为 了 简化 有 记忆 信 源 信号 的 设计 过 程 ,可 
很 设 人 存在 -个 预 白 化 变换 , 以便 可 对 不 相关 的 样 点 进行 引入 相关 性 的 变换 。 

为 了 简化 变换 的 设计 ,在 参考 文献 [90] 的 方法 中 ,把 成 对 相关 变换 (PCT) 应 用 于 每 一 对 不 相关 的 系 
数 。PCT 所 产生 的 两 个 系数 被 分 到 两 个 流 中 ,然后 独立 地 进行 编码 。 如 果 收 到 两 个 流 ,那么 对 每 对 变 
换 系 数 应 用 族 PCT, 就 可 以 精确 恢复 原始 变量 ,只 存在 量化 误差 。 如 果 只 楼 收 到 - -个 流 , 基 十 两 会 系 数 
之 问 的 机关 性 ,在 丢失 流 中 的 系数 可 由 接收 到 的 流 中 的 系数 进行 估计 、 图 14.10 示 出 了 单个 变量 对 的 
这 种 编码 方案 的 方 框图 。 这 种 方法 所 引入 的 开销 可 以 由 成 对 的 系数 个 数 配对 方法 以 及 成 对 系数 的 变 
换 参 数 进 行 控 制 。 在 固定 元 余 度 下 使 单个 描述 的 失真 为 最 小 的 最 优 变 换 具 有 如 下 形式 ; 


















































































































两 变量 MD 编码 器 








两 变量 MD 解码 器 


图 14,10 使 用 成 对 相关 变换 的 多 撒 述 变换 编码 














参数 9 控制 由 编码 每 对 变量 所 引信 的 宛 余 度 的 大 小 。 设 要 编码 N=2 个 变量 ,存在 一 个 
最 优 配对 策略 ,配合 所 选 对 之 间 的 最 佳 元 余 度 , 对 于 给 定 的 总 元 余 度 可 使 单个 描述 的 总 失真 为 


最 小 。 


MDTC 方法 已 纳 人 JPEG 类 的 图 像 编码 器 中 ,其 中 ,DCT( 作 为 去 相关 变换 ) 系 数 用 PCT 分 成 
两 个 流 。 图 14.11 孙 出 了 在 两 个 不 同 的 完 余 订 下 ,由 单个 描述 ( 即 一 半 的 比特 被 丢失 ) 重 建 的 
图 像 ;元 余 度 定义 为 在 没有 传输 损失 的 情况 下 ,为 达到 相同 的 失真 ,每 个 像素 比 参照 的 单 描述 
编码 器 (在 这 种 情况 下 为 JPEG 编码 器 ) 所 需 的 额外 比特 数 。 可 以 看 到 ,在 相对 低 的 元 余 度 下 








由 单个 描述 可 获得 满意 的 图 像 。 




















(b) 


图 14,11 FA) SS SAAR BR aa Ya Yc A BSS” E: OTAR = 0.088 bpp( 15%), 
PSNR = 28.81 dB ; ( b) JT & BR = 0.133 bpp(22%), PSNR=29.63 dB, 4 接 
收 到 两 个 描述 时 重建 PSNR = 35 .78qB, 单 描述 编码 器 (JPEG) 所 需要 的 
参考 比特 率 为 0.60 bpp 。 这 幅 图 像 的 原始 未 压缩 版 本 已 在 图 9.10 中 示 出 


MDTC 方法 也 已 经 加 人 基于 抉 的 混合 视频 编码 器 ,其 中 用 MDTC 编码 运动 补偿 预测 误差 
以 产生 两 个 描述 。 在 这 种 情况 下 ,挑战 性 的 问题 是 如 何 控制 信 源 编码 器 中 所 用 的 参考 赂 与 可 























能 只 接收 到 一 个 描述 的 解码 器 中 所 用 的 参考 帧 之 间 的 失 配 。 关 于 特殊 的 实现 选项 , 见 参考 文 








献 [61]。 


当 给 定 与 MDC 有 关 的 相对 大 的 开销 时 ,这 种 方法 只 适合 于 丢失 率 相对 高 的 信道 。 当 信道 
丢失 沧 小 时 ,无 误 码 情况 下 的 重建 性 能 起 决定 作用 ,因此 更 适 于 单 描述 编码 。 另 一 方面 , 当 于 














失 率 非常 高 时 ,有 损 情 况 下 的 重建 质量 更 为 关键 , 因 出 





b MDC 方法 更 为 适合 。 一 个 挑战 性 的 任 


务 是 设计 MDC 编码 器 ,使 得 它 能 根据 信道 误 码 特性 自动 地 修改 添加 的 宛 余 度 。 


14.4.6 信 源 和 信道 联合 编码 


在 分 层 编码 和 MDC 中 , 信 源 编码 器 和 信道 编码 器 之 间 在 高 层 上 交互 作用 。 在 分 层 编码 
中 , 信 源 编码 器 生成 分 层 的 流 ,假设 信道 编码 器 能 够 保证 基本 层 的 传输 。 另 一 方面 ,对 于 
MDC , 信 源 编码 器 假设 所 有 的 编码 比特 将 被 同等 地 对 待 , 并 且 所 有 比特 都 会 受到 损伤 。 信 源 - 
信道 的 交互 作用 也 可 以 发 生 在 较 低 的 层 上 ;例如 ,量化 器 和 炳 编码 器 是 在 信 源 编码 器 中 设计 
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的 ,而 BEC 和 调制 方式 是 看 信道 编码 器 中 设计 的 。 虽然 这 种 类 型 的 方法 传统 上 称 为 信 源 和 信 
道 联合 编码 ,但 广义 上 ,分 层 编码 和 MDC 也 可 认为 属于 此 种 类 型 。 

出 于 压缩 视频 的 一 个 流行 的 FEC 方案 是 码 率 兼容 删除 卷 积 (RCPC) 编 码 1291; 用 此 种 编码 
可 容易 用 精确 地 控制 信道 元 余 率 。 通 过 联合 设计 RCPC 码 和 信 源 编码 器 中 的 比特 率 分 配 , 可 
实现 信 源 各 信道 编码 速率 之 间 所 期 望 的 折 中 。 用 RCPC 码 也 可 以 相当 容易 地 实现 不 平等 差错 
保护 [301。 

另 一 种 信 源 和 信道 联合 编码 的 方法 是 对 于 给 定 的 信道 汝 码 特性 联合 地 设计 量化 器 和 二 进 
制 编码 内 ,以 使 传输 误 公 的 影响 壤 小 [49,19,56,57,75,20,78]。 也 可 以 仔细 地 设计 己 量 化 信 源 
码 宁 与 它们 的 调制 符号 之 问 的 映射 。 通 过 把 调制 星座 空间 中 邻近 的 点 分 配给 邻近 的 入 源码 
字 , 姓 以 减 小 信道 误 码 的 影响 [93,22]。 

注意, 此 类 技术 主要 针对 比特 错误 ,而 在 卜 缩 数 据 被 打包 并 且 传 输 误 公主 要 是 由 亚 包 引起 
的 道 信 系统 中 并 不 是 很 有 效 ， 


14.5 解码 器 错误 隐藏 


如 前 几 节 中 所 提 到 的 ,出 于 各 种 信道 或 网 络 误 码 ,在 传输 或 存储 期 间 压 缩 视频 数据 可 能 被 
损坏 成 丢失 。 在 14.3 节 中 ,我 们 描述 了 可 在 传输 层 使 用 的 使 传输 损失 最 小 化 的 机 制 。 了 除非 可 
以 元 限 次 使 用 生 传 ( 光 于 实时 应 用 系统 这 是 不 村 接受 的 ) ,否则 在 接收 的 数据 中 仍然 有 差错 或 
损失 。 在 14.4 家 ,我 们 给 出 了 可 以 被 编码 器 州 来 抑制 这 类 差错 影响 的 各 种 方法 ， 在 解码 器 的 
重建 信 妇 中 传输 错误 仍然 可 导致 令 人 讨厌 的 视觉 失真 。 所 引入 的 失真 取决 于 许多 因素 (例如 
Gk ORAS ,传输 协议 、 信 息 损 失 的 数量 和 类 型 ,等 等 ) ,可 从 暂时 的 降 质 到 图 像 或 视频 信号 完全 
不 可 用 。 存 本 入 中 ,我 们 介绍 可 以 在 解码 器 中 使 用 的 隐藏 传输 误 码 影响 的 方法 ,以 使 解码 的 信 

由 于 各 种 限制 (例如 编码 延迟 .实现 的 复杂 度 以 及 世 好 信 源 模型 的 可 几 性 ) ,尽管 为 达到 她 
大 可 能 的 压缩 增益 已 进行 了 大 景 的 研究 ,上 竺 缩 视频 比特 流 仍 具有 一 定 程度 的 统计 克 余 ,因此 错 
误 隐藏 着 可 能 的 。 另 外 , 信 源 编码 器 可 结合 差错 复原 机 制 ,有 意 把 完 余 引入 编码 比特 中 ,以 便 
于 丢失 数据 的 估计 。 此 外 ,人 类 感知 系统 可 以 容 恕 一 定 程度 的 信号 失真 。 所 有 这 些 因素 可 以 
用 于 解码 器 的 错误 隐藏 。 
错 洪 隐藏 必 二 图像 恢复 或 修复 的 一 般 问 题 。 然 而 ,由 于 差错 是 在 太 缩 比特 级 出 现 的 ,所 以 
在 像素 域 产生 的 错误 图 案 非 常 特殊 ,通常 需要 采取 特殊 的 措施 来 处 理 此 类 差错 。 如 前 所 述 , 由 
于 使 用 预测 编码 和 YLC ,单独 一 个 比特 的 差错 就 可 使 一 个 大 的 区 域 受到 做 坏 。 为 了 抑制 差错 
的 影响 ,可 在 解码 器 中 采取 各 种 措施 ,以 -- 定 程度 的 编码 效率 和 复杂 度 为 代价 ,使 压缩 流 更 具 
有 差错 复原 能 力 。 这 里 ,我 们 假设 同步 码 字 被 周期 性 地 插 人 到 一 幅 图 像 内 ( 见 14.4.1 季 ), 并 
预测 环 路 被 周期 地 复位 ( 见 14.4.3 节 ), 使 得 -- 个 比特 的 差错 或 至 包 只 5 起 -- 幅 图 像 中 有 限 
域内 的 损坏 。 

受 损 区域 的 范围 取决 于 同步 码 字 的 频率 、 传 输 包 尺 斗 以 及 比特 闲 可 由 部 分 宏 块 到 整个 
像 。 对 于 如 在 ATM 网 络 中 的 小 信息 包 高 比特 率 传输 ,一 个 丢失 的 包 只 会 损坏 部 分 宏 块 或 几 个 
邻近 的 宏 块 。 在 这 种 情况 下 ,-- 个 受 损 宏 块 - - 般 被 多 个 未 受 损 宏 块 所 包围。 如 果 是 这 种 情况 ， 
我 们 可 用 空间 内 播 来 恢复 受 损 的 宕 块 。 另 - -方面 ,对 于 包 相 对 大 的 低 比 特 率 应 用 系统 (例如 
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电网 的 128 kbps 比特 举 ) ,一 个 丢失 的 包 很 可 能 损坏 大 部 分 帧 或 整个 帧 。 在 这 种 情况 上 ,我 们 
必须 依 年 前 面 和 后面 的 视频 帧 来 隐藏 受 损 的 帧 。 显 然 , 即 使 在 同一 帧 中 相 邻 的 宕 天 可 用 ,也 可 
结合 相 邻 帧 的 信息 、 

对 于 基于 块 的 混合 编码 模式 ,在 一个 受 损 的 宏 块 中 可 能 需要 估计 三 种 类 型 的 信息 :纹理 信息 ， 
包括 原始 图 像 块 或 预测 误差 块 的 像素 或 DCT 系数 值 ;运动 信息 .由 以 了 模式 或 B 模式 编 合 的 宏 块 的 
运动 天 基 (MV) 组 成 ;以 及 宏 庆 的 编码 模式 。 这 些 不 同类 型 信 折 不 同 . 

众所周知 自然 场景 的 网 像 土 要 具有 低频 分 虹 , 电 就 十 说 , 除 具 在 边缘 的 区 域外 ,空间 和 时 间 上 上 
相 邻 像素 的 彩色 值 是 平滑 变化 的 . 为 恢复 纹理 信息 开发 的 所 有 技术 都 利用 了 图 像 和 视频 信号 的 这 
PERHE, Seb 上 它们 者 进行 基 种 空间 /时 间 内 插 。MYV 域 在 较 小 称 度 上 也 利用 了 这 种 平滑 性 质 ， 
也 可 以 用 空间 /时 间 内 揪 来 加 以 恢复 。 对 于 编码 模式 信息 , 扩 开 发 的 方法 更 倾向 于 采用 探 试 法 。 在 
以 下 小 节 中 ,我 们 将 综述 每 类 的 一 些 代表 性 技术 。 这 里 所 讨论 的 方法 (以 友基 他 方法 ) MWA S A 
参考 文献 -82,99,47]。 我们 将 假设 错误 位 兽 已 经 遂 过 其 他 的 亡 法 被 检测 出 来 ,例如 在 使 用 RIP 的 业 
HVE 序列 号 的 天 包 检 测 。 关 于 各 称 差 错 检 测 帮 法 的 内 容 见 参 荔 文 献 [ 刀 ]。 

注意 ,在 典型 的 ( 间 差 错 复原 ) 编 码 茵 实现 中 ,这 -: 种 类 型 的 数据 比特 是 以 每 个 宏 块 顺序 存 
鱼 的 ,使 得 它们 在 受 损 块 中 都 会 玉 失 ,通过 使 用 数据 分 割 (14.4.1 节 ) ,能够 使 编 妈 模式 .MY、 
可 能 还 有 前 儿 个 DCT 系数 在 受 损 块 中 仍 是 可 利用 的 ， 如 下 所 述 , 有 关 编 码 模式 和 MY 的 知识 
可 以 大 大 有 助 十 纹理 信息 的 恢复 .. 


14.5.1 纹理 信息 的 恢复 


运动 补偿 时 间 内 插 ”恢复 受 损 宏 块 的 莽 简 单方 法 是 复制 前 个 解码 帧 的 对 应 宏 块 ， 然 
而 ,如 果 场 基 中 有 大 的 运动 ,结果 并 不 令 人 满意 。 更 有 效 的 解决 办 法 是 使 用 由 MY 所 指向 的 前 
一 帧 中 的 宏 块 。 这 种 方法 的 恢复 性 能 关键 取决 十 MV 的 可 用 件 。 当 MY 也 被 丢失 时 ,就 必须 
首先 合计 MY(14.5.2 W). 为 了 减少 所 估计 的 MY 中 误差 的 影响 ,可 以 把 时 域 预 测 与 空间 内 插 
结合 起 来 ， 

空间 内 插 ” 另 一 种 简单 的 方法 是 由 间 一 帧 中 相合 的 正确 接收 的 块 中 的 像素 来 内 插 受 损 块 
中 的 像素 。 通 常 同 - - 行 的 所 有 类 (或 宏 块 ) 被 放 在 同 个 包 路 ,使 得 一 个 包 的 丢失 一 般 会 导致 同 

行 中 所 有 沁 的 于 失 。 在 这 种 情况 下 ,可 被 受 损 块 利用 的 相 邻 卖 只 是 它 上 面 和 下 而 的 块 。 由 于 
这 些 块 的 天 多 数 像素 亢 天 失 的 样 点 太 远 ,所 以 通常 只 用 相 邻 块 的 边界 像素 进行 内 插 。 一 种 较 简 
单 的 方法 并 不 内 插 各 个 像素 ,而 是 估计 受 损 块 的 DC 系数 ( 即 平均 值 ) ,并 所 用 等 于 所 估计 的 DC 
值 的 常数 来 代 桂 受 损 块 。 可 以 用 周 图 块 的 DC 值 的 平均 来 估计 PC 值 。 便 于 这 种 空间 内 丘 的 -一 
种 方法 是 采用 安 织 打包 (14.3-2 节 ), 使 得 -个 包 的 丢失 将 只 会 破坏 隔行 的 块 或 宏 岂 。 

最 大 平滑 恢复 {MSR】 空间 内 搬 方 法 所 存在 的 问题 是 侈 定 适当 的 内 插 滤 波 器 。 另 一 个 缺点 
是 它们 忽 咯 了 所 接收 到 的 DCT 系数 。 这 些 问题 在 参考 文献 [100.83] 的 MSR 方法 小 得 到 解决, 它 要 
求 受 损 块 中 恢复 的 像素 与 相 邻 的 像素 无 论 足 在 同 - 帧 内 还 是 在 的 /后 帧 部 平滑 地 连接 。 如 果 接 收 到 
这 个 抉 的 一 些 而 不 是 所 有 的 DCI 系数 ,那么 做 出 的 估计 应 该 使 所 恢复 的 块 尽 可 能 是 平滑 的 ,约束 条 
ELLER SE BRAY DCT 将 产生 与 所 收 到 的 系数 相同 的 值 。 这 些 日 标 可 以 形式 化 为 一 个 最 优化 问题 ， 
MAE AB ZFS 下 的 解决 方案 将 对 应 于 空间 时间 和 频率 域 的 不 同 内 描 滤 波 器 . 

采用 凸 集 投 影 {POCS) 的 空间 内 插 ”实现 空间 内 播 的 另 一 个 方法 是 用 POCS 方法 [69， 
Nlo SEF POCS 估计 方法 的 -- 般 思想 是 把 每 : -个 关于 未 知 数 的 约束 视 为 一 个 凸 集 。 最 优 的 
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解 是 所 有 呈 集 的 交 , 它 可 以 通过 递 妇 则 把 前 一 个 解 投影 到 各 个 凸 集 上 得 到 。 当 应 用 POCS 恢 
复 图 像 块 时 ,空间 平滑 准则 是 在 频 域 公式 化 的 ,要 求人 恢复 块 的 DET 只 在 几 个 低频 系数 中 其 有 
能 景 .如果 认 为 受 损 块 包 含有 某 个 特殊 方向 的 边缘 ,那么 可 以 要 求 DFT 系数 潜 着 与 边缘 方向 
正 交 的 一 个 窄 条 分 布 ,也 就 是 说 ,党 着 边缘 方 向 低 通 而 沿 著 正 交 方向 全 通 。 对 每 个 DCT 系数 
幅度 范围 的 要 求 也 可 以 转换 为 一 个 凸 集 。 类 似 地 ,由 任何 接收 到 的 DCT 系数 所 施加 的 约束 也 
WRT ROE. 由 于 只 能 通过 适 代 程序 获得 解 ,所 以 这 种 方法 不 适 于 实时 应 用 。 
14.5.2 编码 模式 和 运动 矢量 的 恢复 

正如 所 下 ,一 些 前 述 算法 是 以 对 编码 模式 和 PP 或 B 模 式 安 块 的 运动 矢量 的 知识 为 前 提 
的 。 为 便于 实现 解码 器 错误 隐藏 ,编码 器 可 进行 数据 分 割 , 把 模式 和 MV 信息 打包 到 分 离 的 段 
中 ,并 日 用 较 强 的 差错 保护 传输 它们 ( 见 14.4.1 节 )。 例 如 ,这 是 在 H.263 和 MPEG-4 中 的 -种 
差错 复原 模式 。 模 式 和 MV 信息 仍 是 可能 被 损坏 的 。 

估计 受 损 宏 块 的 编码 模式 的 一 种 方法 是 收集 相 邻 安 块 编码 模式 的 统 让 特性 ,并 在 给 定 周 
围 宕 抉 模式 的 条 件 下 寻找 最 可 能 的 模式 [68]。 当 编码 模式 玉 失 时 ,一 种 简单 和 保守 的 方法 是 
假设 宏 块 以 帧 内 模式 编码 ,并 只 用 空间 内 插 恢 复 块 。 

要 估计 丢失 的 MV ,有 几 种 简单 的 做 法 [50]:(1) 假 设 丢失 的 MY 为 零 , 这 对 干 具有 相对 小 
的 运动 的 视频 序列 很 有 效 ;(2) 采 用 前 一 帧 中 对 应 宏 块 的 MV;(3) 采 用 空间 相 邻 宏 块 的 平均 
MYV;(4) 采 用 空间 相 邻 宏 块 的 MY 的 中 值 ;(5) 重 新 估计 MV[33]。 通 常 , 当 宏 块 受 损 时 ,其 水 平 
相 邻 的 宏 块 也 会 受 损 , 因 此 平角 或 均值 是 由 上面 和 下 商 的 MV 得 出 。 更 简单 的 方法 是 采用 受 
PAZ PAA MV, BSE , 当 采 用 一 个 以 上 MY 的 均值 或 中 值 对 ,图 像 质量 不 会 达 
到 明显 的 改善 [81]。 为 了 便于 估计 丢失 的 MV, 可 用 交织 打包 (14.3.2 节 ) 方 法 。 例 如 ,如 果 宏 
块 的 奇数 行 和 偶数 行 分 别 打包 ,那么 包 的 丢失 只 损坏 相隔 的 行 。 
14.5.3 基于 语法 的 修复 

前 面 的 错 嵌 隐藏 技术 工作 在 信号 域 ,假设 已 检测 出 传输 流 中 的 错误 ,已 经 丢弃 *“ 有 问题 "的 
数据 单元 ,并 卫 璋 下 的 比特 已 经 被 VI 解码 器 解码 成 信和 续 变 量 (例如 边 信 息 、MYV .DCT 系数 )。 
另 一 方 而 ,基于 诸 法 的 修复 则 是 试图 直接 检测 并 修复 比特 流 中 的 错 澡 。 这 是 可 能 的 ,因为 对 二 
任何 有 限 长 的 数据 包 , 只 有 相对 少量 的 合法 的 个 字 组 合 。 另 外 ,压缩 比特 流 决 不 会 是 一 个 独立 
恒 等 分 布 的 二 进 制 序列 。 在 比特 流 中 1 和 0 的 分 布 经 常 与 位 置 有 关 [8t]。 基 于 这 样 的 信息 ， 
解码 器 可 以 修复 比特 流 ,使 得 修复 后 的 流 符合 编 得 方案 所 指定 的 语法 。 在 H.263 和 MPEG-4 
中 所 用 的 数据 分 割 和 VLC 有 助 于 进行 基于 语法 的 修复 ,因为 它们 允许 较 多 的 “检查 点 "和 语法 
限制 ,使 合法 的 码 字 组 合 的 总 数 小 于 相同 长 度 的 所 有 可 能 的 二进制 字符 中 的 数 日 。 一 个 称 为 
“ 坎 解 码 "的 这 类 修复 方案 在 参考 文献 [84] 中 进行 了 描述 。 对 于 比特 错误 占 主导 地 位 的 信道 ， 
基于 语法 的 修复 是 一 种 有 效 的 错误 隆 藏 方法 . 对 于 可 能 丢失 许多 完整 的 包 的 委 包 性 网 络 , 基 
证 语 法 的 修复 只 用 于 检测 接收 包 的 差错 , 而 不 能 用 于 重建 委 撩 的 数据 。 


14.6 编码 器 -解码 器 交互 的 差错 控制 
























































到 现在 为 止 所 提出 的 技术 中 ,为 抵抗 传输 误 码 ,编码 器 和 解码 器 都 是 独立 工作 的 。 设 想 可 利用 
由 解码 器 到 编码 器 的 后 向 信道 ,如 果 在 差错 控制 过 程 中 发 送 端 和 楼 收 端 协同 工作 , 则 可 能 达到 较 好 
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的 任 能 。 可 以 在 信 源 编码 或 传输 层 中 实现 协 问 工 作 。 在 售 源 编码 器 中 ,可 以 基于 来 各 解体 器 的 扩 
锁 伟 站 修改 编码 参数 。 在 传输 层 , 可 利用 反馈 信息 改变 用 于 FE 或 重 传 的 总 淹 寓 的 百分比 在 
14.3 节 中 描述 了 传输 层 的 适应 性 。 在 本 节 中 ,我 们 介绍 几 种 基于 来 自 解码 器 的 上 反馈 信息 而 修改 信 源 
编码 策略 的 技术 。 这 些 技术 开发 的 前 提 是 差错 持续 时 间 不 太 长 ,存在 - 些 差错 也 经 常 是 可 接受 的 
情况 。 关 此 ,即使 不 能 做 到 纠正 每 个 出 现 的 错误 ,限制 比 类 差错 扩散 的 范围 出 是 很 重要 的 。 



















在 描述 这 些 技 术 前 ,应 注意 反馈 信息 是 如 何 传送 的 。 一 般 反 馈 消息 不 是 视频 语法 的 一 部 
分 ,而 是 在 协议 栈 的 一 个 不 同 的 层 中 传输 ,在 这 个 层 中 交换 控制 信息 例如 ， eee 日 
aan 信 的 标准 1.323 中 -43 ] ,控制 协议 .245[41] 允 许 报告 受 损 宏 氧 的 时 间 和 空间 位 

一般, 这些 消 息 是 无 误 码 传送 的 ,如 有 必要 可 以 使 用 重 传 。 
14.6.1 基于 信道 状况 的 编码 参数 自 适 应 调整 

在 带宽 各 次 错 特 性 可 变 的 信道 中 ,重要 的 是 使 编码 率 与 可 用 信道 带宽 相 此 配 ,以 及 在 编码 
比特 流 中 所 入 适当 的 益 钳 复原 性 能 。 当 以 高 于 信道 可 以 及 时 传送 的 速 举 对 佑 源 编码 时 ,根据 





网 络 层 的 判断 将 丢掉 一 些 数据 ,通常 会 导致 比 以 较 低速 率 编码 沪 信 源 所 造成 的 信 洲 编 仙 失 真 
ESN MR., ETHER LAI ,最 好 是 用 较 低 的 质量 表示 信 波 ,和 留 下 更 多 的 比特 
用 于 在 编码 流 中 以 FEC 或 差错 复原 形式 进行 差错 保护 。 
有 两 个 站 题 必须 解决 :首先 ,传输 以 制 器 必须 能 基于 反馈 信息 上 或 其 他 传输 居 的 相 开 作用 ， 

we DAA TPP EA TE EKI QoS 参数 (例如 带宽 ,延迟 、 丢 包 率 ) HIR, AAE el PE AE 
者 特性 SHAS EDATE H aA OR CO Ee R Co Sa SS AO WEA RTS E E] 

` 顶 测 范围 等 ), CAGE Bk Ee RUTI RAA RR. 79.34 ae 
制 问 题 ,没有 考虑 差错 复原 因素 ， 在 14.4.3 WH, REAR S ILENE T I 
络 损失 特性 的 编码 模式 选择 方法 ( 巾 内 与 帧 间 )。Wu 等 人 的 论文 考虑 了 因特网 视频 传 连 的 码 
率 估计 和 代 率 白 适应 调整 [901。 对 于 因特网 上 流 视 频 记 用 系统 , 划 于 信道 反馈 调节 目标 编码 
率 的 有 关内 容 将 在 第 15 章 进步 讨论 。 


14.6.2 基于 反馈 信息 的 参考 图 像 选 择 


利用 可 用 的 反馈 信道 的 -个 方法 大 使 用 参考 图 像 选 择 (RPS) 。 如 朵 编码 器 通过 反馈 信道 
了 钥 到 前 一 个 编码 帧 的 受 扳 部 分 , 它 可 以 诀 定编 码 下 一 个 了 帧 时 不 是 采用 最 当前 的 参考 图 像 ， 
庙 是 采用 解码 器 中 已 知 可 利用 的 一 个 较 早 的 参考 图 像 。 这 此 求 编码 器 和 解码 器 归 存 储 多 个 前 
面 己 解 但 的 巾 。 关 于 归 用 的 参考 图 像 的 信息 在 比特 流 中 传送 。 与 将 当前 图 像 编码 为 1 幢 比 
较 , 如 果 所 使 用 的 较 早 参考 图 像 不 太 远 , 则 编码 效率 的 下 降 并 不 很 人 。 对 使 用 RPS 所 引起 的 
延 退 和 开销 的 研究 可 参见 参考 文献 [26]， 

注意 ,使 用 RES 个 一 一 定 意 味 着 编码 器 中 额外 的 延迟 。 为 编 得 当前 的 帧 ,编码 器 不 必 等 竺 
关于 前 一 帧 的 反馈 信息 的 到 来 ,而 是 等 当 接收 到 反馈 信息 时 , 它 可 以 选择 受 损 帧 前 面 的 一 个 帧 
作为 参考 . 例如 ,如 果 关 于 帧 n 的 损坏 信息 下 到 编码 帧 + 4 APRN, IATE Min + 1 
与 帧 n+ d -上 之 癌 的 所 有 解码 帧 都 会 有 痊 错 ,因为 解码 器 使 用 与 编码 器 不 同 的 参考 帧 . 在 纺 
TIWI n + d 时 , 道 过 选择 帧 n -1 作为 参考 帧 ,误差 积累 将 从 帧 n+ a 开始 中 小。 当然 ,生成 和 
传送 反馈 信息 所 用 的 时 间 越 长 ,编码 效率 的 损失 就 越 大 。 
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14.6.3 基于 反馈 信息 的 错误 跟踪 


编 介 器 可 以 不 用 较 早 的 ,未 受 损 的 帧 作为 参考 帧 , 而 是 跟踪 帧 * 中 的 受 损 区 域 如 何 影响 

Who + 1 到 帧 n+ d- 1 中 的 解码 像素 。 然 后 在 编码 第 = + d 帧 时 按 下 述 方法 之 一 进行 。 编 码 器 
可 以 (1) 用 帧 内 模式 对 由 帧 n+ 4 -1 中 受 损 像素 预测 的 帧 n+ d 中 的 宏 块 进行 编码 ; (2) 在 
编码 帧 n+ d 时 避免 用 帧 = + d -1 中 受到 影响 的 区 域 进行 预测 ; (3) 对 于 帧 n+ 1 BOR 
n+ -1 进行 与 解码 器 相同 类 型 的 错误 隐藏 ,以 便当 编码 巾 n+ a 时 ,编码 大 的 参考 图 像 与 解 
码 器 的 参考 赂 像 匹 配 。 前 黄种 方法 只 要 求 编码 器 跟踪 受 损 像素 或 块 的 位 置 , 而 最 后 一 种 方法 
ER AEA n+ 1 到 帧 n+ d - 1 的 工作 ,比较 复杂 。 用 任意 一 种 方法 ,解码 器 都 将 在 
Win + 4 完全 从 误 码 中 恢复 。 选 择 (1) 所 存在 的 问题 是 ,如果 帧 中 有 许多 差错 ,将 有 太 多 的 宏 
块 需 要 以 帧 内 模式 编码 。 为 了 维持 恒定 的 比特 率 ,所 有 的 宏 块 都 需要 较 粗粮 地 量化 。- 个 符 
FOV REE FAME nd - 1 的 受 损 像素 对 帧 n+ d 中 的 宏 块 影响 严重 时 ， RAWLS. 这 
种 方法 不 会 在 帧 a + 4 立即 阻止 误差 积累 。 因 此 ,在 后 续 的 几 帧 中 必须 应 用 相同 的 补救 措施 
[26]。 这 个 方法 如 图 14.12 所 孙 。 有 关 错 误 跟 踪 、 纠 正 以 及 快速 算法 的 更 多 信息 可 见 参 考 文 
§KI77, 18,26]. MPEG-4 ARTS 类 支持 基于 NACK( 和 否定 应 答 ) 以 帆 内 模式 有 选择 地 编码 宏 据 
(13.6.8 F). 


























Cees 


14.12 当 采 用 错误 眼 踪 并 且 受 损 块 是 根据 收 到 的 NACK fA LEE PY SRE AO AL 


14.6.4 无 等 待 重 传 


为 利用 重 传 数 据 ,解码 器 的 典型 实现 将 不 得 不 在 处 理 相继 收 到 的 数据 前 等 待 所 请 求 的 
重 传 数据 到 来 。 实 际 上 ,这 是 不 必要 的 。 用 重 传 恢复 丢失 的 信息 而 不 引入 延 姑 是 可 能 的 。 在 
Zhu[97,82] 和 ChanbariL23] 的 方法 中 , 当 例如 帧 的 视频 数据 单元 受 损 时 ,为 恢复 受 损 数 据 向 
编码 器 发 送 - -个 重 传 请 求 。 不 用 等 待 重 传 数 据 到 来 ,用 所 选择 的 错误 隐藏 方法 隐藏 受 损 的 视 
颁 部 分 。 然 后 ,重新 开始 正常 的 解码 ,同时 记录 下 受到 影响 的 像素 及 相关 的 编码 信息 (编码 模 
式 和 运动 矢量 ) 的 眼 踪 情况 (类 似 于 14.6.3 节 所 描述 的 错误 跟踪 方法 )。 根 据 例如 在 帧 n+ d 
到 来 的 重 传 数据 ,纠正 受到 影响 的 像素 ,使 得 它们 好 像 没 有 发 生 传输 差错 一 样 被 再 生出 来 。 纠 
正信 号 是 由 重 传 数据 和 所 记录 的 跟踪 情况 得 到 的 。 
除了 在 信息 丢失 和 重 传 数据 到 来 之 问 的 一 段 时 间 外 ,这 种 方法 可 实现 无 损 侈 复 。 在 那 段 时 间 
内 ,任何 错误 隐藏 技术 (14.5 节 ) 都 可 用 于 受 损 区 域 。 这 种 方案 消除 了 与 传统 重 传 方案 有 关 的 延迟 ， 
而 且 不 会 损害 视频 质量 。 所 付出 的 代价 是 相对 高 的 实现 复杂 度 。 与 14.6.3 节 中 的 修改 编码 操作 以 
阻止 误差 积累 的 错误 眼 踪 方 法 相 比 ,这 种 方法 利用 重 传 的 数据 纠正 并 阻止 解码 器 中 的 错误 。 
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14.7 H.263 和 MPEG-4 中 的 差错 复原 工具 


在 本 入 中 ,我 们 总 结 在 H.263 和 MPEG -4 标准 中 定义 的 差错 复原 工具 。 这 些 工 具 时 入 差错 复 
原 编 码 类 ,尽管 标准 只 定义 了 比特 流 语法 。 值 得 注意 的 是 ,与 任何 差错 复原 编 而 方法 一 样 ,这 些 方 
法 都 会 稍微 降低 编码 效率 。 然 而 ,它们 为 好 的 解码 器 提供 了 定位 比特 流 中 的 错误 .限制 由 这 些 错 误 
影响 的 略 像 区 域 以 及 应 用 适当 的 错误 隐藏 方法 (14.5 节 ) 的 上 具 。 如 何 用 这 些 工 具 帮 助 解码 器 工作 
超出 了 标准 的 范围 ,这 使 得 不 同 的 解码 咒 供 应 商 之 间 能 够 相互 竞争 ， 


14.7.1 H.263 中 的 差错 复原 工具 


H.263 标准 的 初始 日 标 足 作为 B.324 系统 的 视频 山 码 标准 ,其 日 的 是 使 视频 电话 能 通过 
有 线 和 无 线 调制 解 调 器 传输 。 如 14.2 节 所 描述 的 ,适当 地 应 用 FEC 利 复 用 ,可 以 认为 有 线 和 
无 线 的 调制 解 调 信道 是 盛 凑 销 的 。 因 此 ,H 263 开发 的 初始 只 是 敏 力 于 提高 编码 效率 。 随 着 
主要 针对 因特网 上 视频 电话 和 视频 会 议 的 303 标准 的 开发 , 益 错 复原 成 为 主要 关心 的 问 
题 。 开 发 了 一 组 附件 来 扩展 先前 的 .263 标准 。 以 下 是 H263 标准 版 本 3( 即 日 .263 ++ ) 中 
包含 的 益 错 复原 工具 , 它 于 2000 年 11 月 被 批准 。 

使 用 BCH 玛 的 前 向 纪 错 [附件 H) 这 个 工具 允许 比特 流 中 包含 492 个 编码 视频 比特 的 
块 和 19 比特 的 BCHCSH ,492)FEC 校 验 信 息 。 加 入 一 个 用 于 重 同 步 的 附加 比特 组 成 512 比特 
HORAN RHE GLA TAA 4% 比 特 率 的 古 销 。BCH(511,492)FEC 码 能 纠正 512 比特 块 中 
的 单个 比特 误 码 和 可 甘地 检测 2 比特 误 丛 。 这 个 工具 是 以 ISDN 信道 上 视频 传输 为 月 标的 
了 .261 标 准 的 未 用 部 分 , 月 的 是 处 理 偶发 性 误 码 。 对 于 易 发 误 码 的 移动 信道 ,附件 H 是 无 效 
的 ,因为 既 不 能 纠正 也 不 能 可 靠 地 检测 长 于 随 个 比特 的 突 发 误 码 。 而 卫 ,492 视频 比特 的 固定 
块 结构 不 能 够 使 块 边界 与 同步 标记 精确 地 对 齐 。 册 二 这 些 原因 ,附件 正 对 抵抗 因特网 或 无 线 
网 的 误 码 不 是 很 存 用 [811。 

运用 片 结构 模式 的 灵活 的 同步 标记 插入 (附件 K] SEA PLAY, HAARR 
COB 结构 。 片 头 作为 同步 标记 ,并 卫 中 断 图 像 内 MY 和 DC 系数 的 预测 。 而 GOB ae A E 
定数 日 的 宏 块 ,每 - -个 扫描 次 序 的 片 大 约 有 相同 的 比特 数 。 如 果 在 当前 片 中 所 包含 的 比特 数 
超过 了 预定 的 阔 值 ,那么 在 下 个 宏 块 的 开始 就 后 成 -个 新 的 片 。 如 图 14.13 所 示 , 视 频 中 的 活 
动 区 (其 中 每 个 安 块 需要 更 多 的 比特 ) 将 比 静 止 区 具有 更 多 的 片 ,从 而 有 更 多 的 同步 标记 。 这 
为 解码 器 在 活动 区 的 错误 隐藏 提供 了 便利 条 件 。 

一 个 于 .263 中 的 片 也 可 对 应 于 帧 中 一 个 与 居 块 边界 对 齐 的 矩形 区 域 ， 这 使 得 能 够 进行 
如 下 所 述 的 独立 段 解码 、 

参考 图 像 选 择 [ 附 件 N 和 附件 U) 如 在 14.6.2 节 中 所 介绍 的 , RPS 允许 编码 器 为 运动 补偿 使 
用 较 早 的 参考 赂 像 ,该 图 像 是 已 知 在 解码 器 端 被 正确 接收 的 。 在 H.263 中 ,RPS 可 用 于 整 幅 图 像 图 
像 段 ( 片 或 GOB) 或 单独 的 宏 块 。 在 附件 N 中 定义 了 前 两 种 机 制 ,并 且 只 是 作为 一 种 差错 复原 工具 
直人 的 ,而 后 者 定义 在 附件 U 中 ,是 为 了 同时 达到 差错 复原 和 编码 效率 和 而 设计 的 C. 在 H.263 中 ,无 
论 有 无 反馈 信息 都 可 以 使 用 RPS。 当 没有 反 合 信息 时 ,可 用 14.4.3 节 中 所 描述 的 视频 多 余 度 编码 






































名 ”通过 允许 宏 块 在 一 组 过 于 的 帧 中 亲 选 择 最 住 匹 柜 的 宏 块 ,以 运动 估计 复杂 度 为 代价 可 使 编码 效率 所 高。 
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方法 ,利用 预先 处 理 的 交织 的 RPS 方案 。 然 而 ,此 技 人 在 比 基于 反馈 的 轴 制 效率 低 得 多 [87,88]。 
[ menen 
f] cosx 
| 是 片头 
I | ] 。 1 1! 
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使 用 扫描 顺序 片 的 HE 263 


图 14.13 在 H.263 中 扫描 顺序 片 与 COB 的 对 比 。 对 于 GOB 结构 ,包含 者 运动 飞机 的 GOB( 第 
一 和 第 四 个 GOB) 更 有 可 能 出 错 , 央 为 它们 含有 较 多 的 比特 。 受 损 的 GOB 将 导致 视觉 上 
不 可 接受 的 失真 ,对 于 片 结构 ,相同 的 区 城 补 更 多 的 片 己 盖 。 央 为 在 这 个 区 域 出 
现 大 量 的 同步 标记 ,并 且 丢 失 的 片 影响 较 小 的 区 域 ,使 差错 复原 能 力 得 到 改善 





可 分 级 性 {附件 O) 附件 0 定义 了 类 似 于 在 MPEG-2 中 所 用 的 时 间 、 空 间 以 及 SNR 可 分 














级 性 - 如 14.4.4 节 所 述 ,如 果 在 信 源 与 信 宿 之 问 利用 多 条 具有 不 同 QoS 


特性 的 传输 路 径 , 则 








这 些 工 具 可 用 来 提高 差错 复原 能 力 。 目 前 的 网 络 透 常 不 支持 不 同 的 QoS, 





此 ,可 分 级 性 很 少 





为 差错 复原 的 目的 在 实际 中 使 用 。 
独立 段 解码 {ISD) (附件 R) ISD 强迫 编码 器 和 解码 器 像 对 待 图 像 边 











界 那样 对 待 段 ( 片 或 


G0B) 边 界 , 借 以 阻止 受 损 数据 从 一 个 段 扩散 到 另 一 个 段 。 这 种 方法 是 14.4.3 节 所 讨论 的 差 
错 复原 项 测 的 - -种 特殊 情况 。 已 经 证 明 与 矩形 片 相 联 系 的 ISD 可 提高 差错 复原 能 力 [88]。 





ISD 的 开销 大 约 与 图 像 尺 寸 成 反比 ,对 于 小 于 CIF 的 图 像 尺 寸 ,开销 过 高 而 
数据 分 割 和 VLC{ 附 件 Vb 如 前 所 述 ,对 于 数据 分 割 , 宏 块头 .MY 以 








不 切实 际 [81]。 
及 DCT 信息 不 再 逐 








个 宏 块 地 进行 交织 ,而 是 用 专门 设计 的 标记 把 它们 分 组 为 不 同 部 分 。 头 和 运动 信息 用 RVLC 





进行 编码 ,而 DCT 系数 用 H.263 基本 系统 中 的 不 可 着 VLC 表 进 行 编码 。 








头 重复 {附件 W) 这 交 许 在 当前 帧 的 头 中 重复 前 一 帧 的 头 , 在 多 许 延迟 - - 帧 的 情况 下 ， 
它 使 得 能 够 对 丢失 了 帧 头 的 巾 进 行 解码 。 注 意 ,H.263 不 包含 允许 在 片 级 包含 宛 余 的 图 像 头 


信息 的 语法 元 素 , 可 以 在 MPEG-4 的 头 扩展 码 中 得 到 该 元 素 。 














关于 如 何 能 够 把 上 述 工具 纳入 视 频 编 解码 器 ,并 HH 用 于 因特网 和 无 线 网 上 视频 传输 的 讨 


论 , 见 参考 文献 [811。 
14.7.2 MPEG-4 中 的 差错 复原 工具 











MPEC-4 标 准 的 主要 目标 之 一 是 使 通用 的 访问 成 为 可 能 。 因 此 ,差错 复原 从 一 开始 就 是 一 个 所 要 











考虑 的 重要 问题 。 因 为 开发 时 间 交 葵 , 所 以 定义 在 MPEC4 中 的 差错 复原 工具 相 














当 类 似 于 H.263 中 的 





那些 工具 。 它 包括 前 几 蔬 所 描述 的 错误 隔离 同步 ,数据 恢复 以 及 差错 复 床 闹 编 公 等 许多 工具 。 
重 同步 工具 ”MPGk-4 定义 几 种 在 传输 差错 发 生 后 进行 快速 重 同 步 的 方法 。 视 频 打 包 方法 非 . 
常 类 似 于 MPEG-2 的 自 适应 片 和 H.263 的 片 结构 模式 。 视 频 包 的 作用 与 H.263 的 扫描 顺序 片 的 作 
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用 相同 。 视 频 包 的 长 度 不 再 基于 宏 块 的 数目 (如 MPEG-4 的 下 差错 复 诛 模式 或 H.263 某 本 系统 的 情 
况 ) ,而 是 基于 该 包 所 含 的 比特 数 (多 图 14.13). 它 的 门 的 是 为 比特 流 提 供 冉 期 性 的 重 同步 。 

重 同 步 标 记 放 在 每 个 视频 包 涉 的 开始 位 置 。 像 其 他 起 始 码 一 样 ,这 个 慰 记 有 别 于 所 有 其 他 末 
能 的 VLC 码 学 。 头 包含 为 重新 开始 解码 过 程 所 天 要 的 信息 ,包括 这 个 包 的 第 一 -个 宏 央 的 地 址 利 这 
个 宏 块 的 量化 参数 (QP)。 它 们 的 后 面 跟 着 单个 比特 的 头 扩展 码 (HEC) ， 如 果 HEC 省 为 1 EAB 
在 视频 对 象 平面 (VOP) 头 中 说 昌 的 信息 被 复制 到 这 个 包头 中 ,如 定时 信息 .时间 参考 .YOP 预测 类 型 

些 其 他 信息 ， 头 扩展 特性 使 解码 器 即使 在 包含 VOP 头 的 包 被 丢 类 的 情况 下 ,也 能 正确 地 使 
用 包含 在 当前 包 中 的 数据 。 它 也 能 进行 交叉 校 验 ,因为 在 同 -个 VOP 中 的 所 有 所 应 该 共享 相 问 的 
OP EST, 等 等 。 

除了 使 用 可 变 长 视频 包 外 ,MPEG-4 也 采纳 了 一 种 称 为 固定 间隔 同步 的 方法 。 这 种 方法 要 

求 视频 包 的 起 始 只 在 比特 流 中 允许 的 、 间 定 间隔 的 位 置 出 现 。 这 有 助 于 避免 由 传输 差错 引起 
的 与 起 始 码 竞争 有 关 的 问题 。 
RPE ”为 了 实现 视频 包 中 较 好 的 错误 隔离 和 固定 间隔 同步 方法 ,MPEG-4 也 用 数据 分 
制作 为 差错 复原 工具 -视频 包 内 的 数据 分 割 重新 组 织 数据 ,使 得 运动 矢量 利 相关 的 证 法 成 分 
被 首先 传输 ,其 后 跟着 如 CBP 和 DCT 系数 之 类 的 语法 成 分 。 图 14.14 R ELT RGE 
视频 包 的 语法 结构 。 注 意 ,该 结构 中 的 DCT 纹理 部 分 可 用 RVLC 编码 、 





















加 

















-个 视频 包 
Ava 











重 同步 | Bh | 最 化 HbC 和 头 重复 运动 运动 较 理 RAS 
eric | al Al (如 果 存 在 ) xe | te | on | ak 























图 14.14 MPREC-4 中 具有 数据 分 割 的 差 漠 复原 模式 中 的 视频 包 的 语法 结构 


NEWPRED 模式 ALETE MF 11.263 RPS 模式 (附件 N; 和 片 结 构 模 式 (附件 
K)。 当 NEWPRFEDCND) 模 式 开通 时 ,编码 器 用 于 时 间 预 测 的 参考 将 按照 来 自 解码 器 的 反馈 信 
息 昌 适应 地 和 更新。 这些 消 息 指出 哪些 NEWPRED 眉 ( 它 可 以 是 整个 帧 ,或 省 一 一 用 MPRC-4 术 
语 一 一 个 YOP, 或 者 是 一 个 包 的 内 容 , 一 般 是 一 个 片 ) 没 有 被 成 功 地 解码 。 基 于 反馈 信息 ， 
编码 准将 使 用 最 近 的 ND 段 或 者 空间 对 应 但 时 间 较 嘻 的 ND BER EIT DIM 

RPRVLC 及 数据 分 割 配合 使 用 的 数据 恢复 MPEG-4 差错 复原 模式 使 用 RVEC 来 实现 更 好 的 
DCT 数据 恢复 。 在 VOL 上 标识 RVIC 的 使 用 。 当 RVLC 用 于 DCT 数据 时 ,比特 流 首先 被 前 向 
解码 ， 如 灯 没 有 检测 到 差错 ,那么 比特 流 就 被 认为 是 有 效 的 。 然 而 ,如果 检测 到 差错 , 则 用 并 
向 解码 ,并 红 不 应 该 使 用 该 包 前 几 个 宏 块 之 间 在 前 后 两 个 方向 郁 检 测 到 差错 的 部 分 。 


14.8 小 结 


在 本章 中 ,我 们 介绍 了 能 够 用 二 抵抗 实时 视频 通信 中 传输 错误 的 各 种 差错 控制 机 制 ， 重 
点 介绍 了 为 基于 拟 的 混合 编码 器 开发 的 技术 ,特别 是 那些 被 FT. 263 和 MPEC-4 标准 所 采用 的 
技术 。 这 里 对 不 同 种 类 的 差错 控制 技术 的 主要 特性 归纳 如 下 、 

传输 层 差错 控制 (14.3 节 ) 


o 传输 层 差错 棕 制 机 制 是 最 重要 的 ,并 且 保 证 基本 的 质 层 水 平 。 可 以 道 过 FEC .交织 打包 
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以 及 ( 茬 可行 的 话 ) 有 限制 的 


e 可 对 共有 不 同和 





HSE SE Ha 
要 性 的 编码 比特 部 分 应 用 不 同 级 草 的 保护 。 这 种 不 平等 差错 保护 是 用 


有 限 基 的 宛 余 度 达到 可 接受 质量 的 一 种 有 效 方法 。 


差错 复原 编码 {14.4 节 ) 


se 这 类 技术 通过 在 信 源 编码 器 的 编码 








技术 的 目的 在 于 


检测 或 恢复 比特 错误 (例如 
输 层 之 间 密 切 的 相互 作用 ( 


复原 预测 ), 而 其 他 的 技术 假定 7 


F 保 让 基本 的 质量 ,并 
码 和 MDC); 一 些 技术 有 助 于 阻止 误差 积累 (例如 差错 复原 预测 ); 而 男 一 些 技术 有 助 ] 
隔离 和 健 古 的 精 编 码 ) 。 一 些 技术 要 求 信 源 编码 器 和 传 
具有 不 平等 莽 错 保护 的 分 层 编 码 . 具 有 交织 打包 的 差错 
下 同 的 子 流 在 传输 层 中 是 了 


错误 
例如 








七 特 流 中 加 入 一 定量 的 宛 余 度 实 现 差错 复原 。 一 些 





fF 根据 出 现 的 传输 差错 提供 适度 的 降 质 (例如 分 层 编 





FF 等 对 待 的 (例如 MDC). 





日 如 在 14.4.6 节 中 所 述 ,错误 隔离 .RVLC 以 及 信 源 和 信道 联合 编码 只 对 抵抗 比特 错误 有 











,而 无 助 于 恢复 天 包 。 
解码 器 错误 隐藏 (14.5 节 ) 








o 所 有 的 纹理 错误 隐藏 技术 利 


息 。MSR 技术 通过 使 
内 播 和 空间 内 插 方 法 可 





达到 最 小 。 另 一 方面 ,POCS 方法 把 重建 的 


TOR ALR I 





能 进一步 改善 性 能 。 


编码 模式 和 运动 信息 的 恢复 比 纹理 信息 更 
矢量 之 间 相 关 性 很 小 。 如 果 可 能 的 话 , 通 过 使 有 
类 信息 比 纹理 信息 更 好 地 被 保护 起 来 。 
编码 器 ~- 解码 器 的 交互 式 差错 控制 (14.6 节 ) 

编码 器 的 后 向 信道 时 , 才 可 应 用 这 个 技术 ， 


9 只 有 当 存 在 从 解码 器 到 

















编码 器 丢失 了 哪 部 分 编码 信息 。 
© 所 提出 的 三 个 技术 (参考 
5 





图 








息 后 阳 止 误差 积累 。 参 
预测 ;而 无 等 待 重 传 基 了 
© 如 果 只 能 利用 一 般 信和 4 
参数 ,以 便 减 小 数据 丢失 并 
技术 的 选择 
。 传输 层 差错 控制 机 制 是 最 
损 环 境 下 (如 因特网 和 无 线 














像 选择 .错误 跟踪 和 无 等 待 
图 像 选择 和 错误 眼 踪 避 免 编 码 器 使 有 
传 的 信息 纠正 差错 。 

,例如 丢 包 率 , 而 并 不 知道 哪 部 分 信息 丢失 时 ,可 尝试 调节 编码 
制 任 何 丢失 数据 的 影响 。 


图 像 和 视频 信号 时 间 和 空间 的 平 少 性 质 恢复 丢失 的 信 
建 信号 的 粗糙 庶 达 到 最 小 来 实施 平滑 性 约 束 。 运 动 补偿 的 时 间 
认为 是 MSR 方法 的 特殊 情况 ,其 中 只 使 时 





间或 空间 的 残 差 度量 
接收 的 系数 和 由 估计 








像 块 迄 代 地 投影 到 由 








向 决定 的 平滑 约束 所 确定 的 凸 集 上 。 尽 管 一 般 会 给 出 比 MSR 更 精确 的 
结果 ,但 是 POCS 方法 的 计算 量 较 大 ， 
简单 日 有 效 的 运动 补偿 时 间 内 插 已 经 在 商 } 
动 或 正在 经 历 场景 改变 时 ,利用 空间 村 








为 它 需 要 许多 次 迭代 、 
业 系 统 中 被 采用 :只 当场 景 有 非常 复杂 的 运 
关 的 更 复杂 的 方法 (空间 内 插 、MSR 利 POCS) 才 

















困难 ,因为 在 编码 模式 以 及 邻近 宏 块 的 运动 


数据 分 割 和 不 平等 差错 保护 ,可 以 使 这 




















使 得 解码 器 能 够 通知 





外 传 ) 都 是 为 了 在 接收 到 反馈 信 
损 的 区 域 进行 末 来 的 

















区 


要 的 ,并 且 保 证 基本 的 QoS 水平。 为 了 进一步 改善 非常 有 
网 络 ) 的 质量 , 差 销 复 诛 编 码 和 解码 器 错误 隐藏 是 必 归 的 。 


取决 于 信道 老 错 特性 以 及 系统 配置 和 要 求 ,-- 些 技术 比 另 一 些 技术 更 有 效 。 





© 突 发 性 传输 差错 对 算法 选 


ALAA Hl 














E BBS HT REA. 





。 这 是 





当 大 的 影响 。 对 于 具有 很 长 的 突 发 误 码 的 信道 , 凑 





因为 这 种 编码 技术 所 引入 的 元 余 当 信道 无 误 码 时 是 
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浪费 的 ,而 当 出 现 突 发 误 码 时 ,这 种 元 余 又 不 是 很 有 用 。 当 适当 限制 时 , 重 传 叮 能 点 适 
用 ,因为 它 只 在 宕 要 时 引信 江 销 。 

从 解码 器 到 编码 器 后 向 信道 的 存在 也 影响 - - 些 方案 的 本 置 、 在 如 广播 之 类 的 应 用 系统 
中 ,其 中 没有 后 向 信道 ,不 能 应 用 任何 交互 式 益 错 控制 技术 。 类 似 地 ,在 视频 流 应 用 系统 
中 ,视频 一 般 预 先 压 迄 并 存储 在 服务 器 中 ,因此 不 可 能 基于 网 络 状 况 修改 编码 器 的 了 作 。 
在 任何 情况 下 都 可 应 用 错误 隐藏 技术 。 然 而 ,这 种 技术 的 右 效 性 受到 可 用 信息 的 限制 。 
另外 , 某 些 技术 可 能 对 于 有 成 本 效益 的 实现 太 复杂 ,或 者 对 实时 应 用 系统 引 人 不 可 接受 




















的 处 理 延迟 。 

















除了 延迟 和 复杂 性 问题 外 ,比较 本 同 方案 的 一 个 重要 准则 二 为 达到 树 同 程度 的 差错 保 
护 所 希 要 的 信 源 编码 器 和 传输 层 总 吕 余 量 。 显然 , 稼 更 最 小 宛 余 大 的 方法 在 带宽 利用 


14.9 


14.1 
14.2 
14.3 


Fr ERA ND. 


习题 


传输 音频 和 视频 与 传输 数据 文件 相 比 主要 有 什么 木 同 的 要 求 ? 
对 于 交互 式 视频 会 议 应 用 系统 的 典型 延迟 要 求 是 多 少 ? 对 视频 流 呢 ? 
影响 在 视频 信 源 与 接收 端 显示 的 视频 之 间 端 到 端 延 迟 的 因素 是 什么 ? 


14.4 “我们 把 视频 道 信 中 的 差错 控制 方法 分 为 四 种 。 它 们 是 什么 ”请 措 述 每 一 种 的 优点 


和 和 局限 性 。 


14.5 线路 交换 网 络 与 基于 包 交 换 的 网 络 之 间 的 主要 区 别 基 什么 ? 在 每 种 情况 下 你 选择 


什么 作为 你 的 差错 控制 机 制 ? 





14.6 分 层 编码 (LC) 与 多 撒 述 编码 ( MDC) 之 问 的 主要 区 别 是 什么 ?在 网 络 需求 方面 它们 
APTA? SORT BG LC 而 不 是 MDC 的 网 络 状况 ,以 及 反 过 来 宁愿 选择 MDC 





而 不 是 LC 的 网 络 状 况 、 
14.7 ”如果 网 络 由 可 靠 (几乎 无 误 体 ) 上 改变 到 不 可 靠 (具有 高 的 丢 包 率 ) ,在 实现 运动 补偿 
英 浏 中 你 会 采取 怎 拌 不 同 的 微 法 ? 
14.8 从 理论 上 说 , 玉 失 的 信息 是 不 可 恢复 的 。 是 什么 使 错误 隐藏 技术 对 视频 是 可 行 的 ? 
14.9 在 恢复 爱 损 纹 理 数据 的 钳 误 隆 藏 技术 中 的 主要 假设 足 什么 ? 


14.10 描述 错误 隐藏 的 MSR 


14.11 


和 POCS 让 法 的 原 府 。 每 种 方法 的 优点 和 缺点 是 什么 ? 


考虑 因特网 视频 会 议 应 用 系统 。 假 设 压缩 的 视频 流 被 打包 ,并 且 包 或 者 丢 欠 (由 于 过 


长 延迟 或 错 传 ,或 俭 测 到 包 中 有 误 码 ) 或 者 被 完整 无 缺 地 接收 到 。 人 很 设 有 效 委 包 率 相当 
高 ,大 约 10%, 且 无 反馈 通道 可 利用 。 信 源 与 信和 宿 之 癌 的 端 到 端 平均 延迟 大 约 屁 50 me。 


进一步 假设 信 源 与 
并 隐藏 委 包 影响 的 机 和 制 





14.12 重新 考虑 习题 14.11 4 


办 法 会 不 同 吗 ? 








信 宿 之 间 人 允许 的 最 大 端 到 端 延 迟 是 150 ms.。 你 会 提出 什么 作为 控制 


?本章 中 所 述 的 哪些 方法 是 不 适用 的 或 是 有 效 的 ? 


Pp 的 情况 ,但 假设 网 络 有 较 低 的 于 包 率 ,例如 1%。 你 的 解决 





14.13 重新 考虑 习题 14.11 + 
的 ,并 且 一 般 花费 50 ms 传送 反馈 信息 。 在 这 种 情况 下 ,你 会 提出 什 么 解决 办 法 ? 
在 反馈 信道 上 你 会 传送 什么 ? 


"的 情况 ,但 这 次 候 设 信和 宿 与 信 源 之 问 的 反馈 信道 是 可 利用 
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AEF TE ELA SOP RE AE TF HE AAN 64 kbps) 的 无 线 
的 视频 传输 。 即 使 网 络 或 解码 器 已 在 基于 FEC 编码 的 包 内 检测 到 比特 错误 


络 上 
,你 也 











特 网 





有 进一步 检验 该 包 的 选择 权 。 在 这 种 情况 下 ,你 会 提出 什么 解决 办 法 ? 与 
的 情况 相 比较 ,你 会 用 较 短 的 包 还 是 较 长 的 包 ? 
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第 15 St ”因特网 和 无 线 UP 网 络 上 的 流 视 频 


当前 计算 技术 ,压缩 技术 ,宽带 存储 设备 和 高 速 网 络 的 发 展 使 得 通过 因特网 提供 实时 多 媒 
体 服务 成 为 可 能 。 正 如 其 名 称 所 隐 仿 的 ,实时 多 媒体 具有 时 间 上 的 限制 。 例 如 ,视频 和 音频 数 
据 必 须 不 间断 地 播放 , 如 果 数 据 不 能 按时 到 达 ,播放 过 程 将 会 暂停 ,这 是 令 观 众 讨厌 的 。 

对 现场 或 存储 的 视频 进行 实时 传输 是 实时 多 媒体 的 主要 部 分 。 在 本 章 中 我 们 所 讨论 的 视 
频 流 是 指 存储 视频 的 实时 传输 吕 。 视 频 流 一 般 有 带宽 . 延 时 和 损耗 的 要 求 。 然 而 ,目前 最 尽力 
的 因特网 不 对 流 视频 提供 任何 QoS 保证 。 此 外 ,因特网 的 非 均匀 性 使 它 难于 支持 在 视频 组 播 
中 灵活 地 提供 服务 ,满足 用 户 宽 范围 的 QoS 需求 。 更 有 其 者 ,对 于 无 线 下 网 络 上 的 流 视 频 , 无 
线 信道 条 件 的 无 规则 波动 会 造成 视频 质量 的 严重 退化 。 因 此 ,在 因特网 和 无 线 IP 网络 上 的 流 
视频 面临 着 许多 挑战 。 

为 了 对 付 这 些 挑战 ,人 们 已 经 付出 了 大 莉 的 努力 。 以 提供 这 一 领域 的 一 个 概览 为 目的 ,我 
们 可 括 了 关于 流 视 频 的 7 个 领域 ,分 曾 称 为 :视频 压缩 、 流 视频 的 应 用 层 QoS 控制 .连续 媒体 发 
布 服务 , 流 服务 器 ,媒体 问 步 机 制 . 流 媒体 协议 和 无 线 P 网 络 上 的 流 视频 。 对 每 个 领域 ,我 们 
将 讨论 特定 的 问题 并 考察 有 代表 性 的 方法 和 体系 。 


15.1 视频 流 系统 的 结构 


一 个 视频 流 系统 通常 包括 7 个 组 成 部 件 ,如 图 15.1 所 示 。 在 图 中 ,原始 的 视频 和 音频 数 
据 由 视频 各 音频 压缩 算法 进行 顶 压 缩 ,然后 存储 在 存储 设备 中 。 依 据 用 户 的 请 求 , 流 服务 器 从 
存储 设备 中 检索 到 压缩 的 视频 /音频 数据 ,然后 应 用 层 QoS 控制 模块 根据 网 络 状 况 和 QoS BER 
调节 视频 /音频 比特 流 。 调 节 后 ,传输 协议 对 压缩 的 比特 流 进 行 打包 ,并 把 视 /音频 数据 包 送 到 
因特网 或 无 线 下 网络 。 在 因特网 上 , 由 于 拥塞 - 些 数据 包 可 能 会 丢失 或 经 历 过 长 的 延迟 ,在 
无 线 由 段 , 有 些 包 可 能 因 误 码 而 遭 到 破坏 。 为 了 提高 视 / 音 频 的 传输 质量 ,连续 媒体 发 布 服务 
被 用 于 因特网 。 那 些 威 功 地 到 达 接收 端的 数据 包 首先 经 过 传输 层 , 然 后 经 应 用 层 处 理 , 再 由 
视 / 癌 频 解 码 器 解码 。 为 了 达到 视频 和 音频 演播 的 同步 ,需要 媒体 同步 机 制 。 由 图 15.1 可 以 
看 到 ,这 7 个 部 分 是 紧密 联系 的 ,它们 是 视频 访 结 构 的 连贯 的 要 素 。 
下 面 ,我 们 分 别 简要 地 介绍 这 7 个 部 分 。 
1. 视频 压缩 :为 了 实现 高 效 的 传输 , 原始 视频 在 传输 之 前 必须 进行 压缩 。 视 频 正 缩 方 案 
可 以 分 为 两 类 :可 分 级 和 不 可 分 级 的 视频 编码 。 由 于 可 分 级 视频 能 够 得 体 地 应 付 因 特 
网 的 带宽 波动 L45] ,所 以 我 们 主要 涉及 可 分 级 视频 编码 技术 。 在 第 11 章 中 已 经 讨论 
过 这 个 课题 ,因此 这 里 只 给 出 这 个 课题 的 一 个 简单 的 回顾 。 
2. 流 视频 应 用 层 QoS 控制 :为 了 适应 变化 的 网 络 条 件 和 用 户 对 演播 质量 变化 的 要 求 , 已 


全 ”视频 流 指 的 电视 频 只 容 不 需要 全 部 下 载 , 列 是 在 部 分 内 容 被 接收 和 解码 时 进行 重 放 。 
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经 提出 了 各 种 应 用 层 QoS 控制 技 


不 [19,69,77]。 这 些 技术 包括 拥塞 榨 制 和 差错 控制 。 它 们 各 


日 的 功能 如 下 : 拥 守 控制 用 于 防止 玉 包 和 减 小 延迟 :差错 控制 则 足 在 出 现 委 包 的 情况 下 改善 视 





频 演播 的 质量 。 一 般 视 频 应 用 中 


在 视频 流 应 用 中 有 效 的 那些 交错 控制 技术 。 


3. 连续 媒体 发 布 服务 :要 提 
支持 可 以 减 小 传输 延迟 和 丢 包 率 


的 差错 控制 已 经 在 第 14 章 做 过 介绍 ,这 里 ,我 们 将 集中 讨论 


供 有 质量 的 多 媒体 演播 ,网 络 的 支持 是 重要 的 ,这 是 因为 网 络 
。 由 于 建立 在 内 特 网 顶层 (TP 协议 ) ,连续 媒体 发 布 服务 对 于 





最 尽力 的 因特网 上 的 流 视频 能 够 实现 QoS 和 高 效 传输 。 和 连续 媒体 发 布 服务 包括 网 络 滤波 、 应 


用 层 组 播 和 内 容 复制 
4. 流 服务 器 : 流 服务 器 仁 提 


供 流 服务 中 起 着 关键 的 作用 、 为 了 提供 存 质量 的 流 服务 ,要 


求 流 服务 央企 一 定时 限 内 处 理 多 媒体 数据 ,并 日 支持 交互 式 控制 操作 ,如 暂停/ 继续 演播 快 进 
利 快 退 ,。 此 外 , 流 服 务 器 必须 以 同步 方式 重新 得 到 多 媒体 内 容 。 一 个 流 服务 器 典型 地 包含 三 


个 子 系 统 ,它们 是 道 信 程 计 ( 即 传输 协议 ) ,操作 系统 和 存储 系统 。 


5. 媒体 同步 机 制 :媒体 回 步 

















制 是 多 媒体 应 用 区 别 于 其 他 传统 数据 应 用 的 一 个 主要 特 


征 。 在 蝶 体 同步 机 制 下 ,接收 端的 应 用 可 以 按 与 各 媒体 原始 采集 相同 的 方式 提供 各 种 媒体 流 。 
媒体 同步 的 一 个 典型 的 效果 是 说 话 者 嘴唇 的 运动 与 演播 的 音频 相 一 致 。 

6. 流 媒体 协议 :协议 是 为 客户 与 流 服务 器 之 间 的 通信 而 设计 和 标准 化 的 。 流 媒体 协议 提 
供 的 服务 包括 网 络 寻 址 传输 和 活路 控制 等 。 协 议 可 分 为 三 类 :(1) 网 络 层 协 议 ,如 IP, (2) 传 输 


协议 ,如 用 户 数据 包 协 议 CUPP),( 
7. 无 线 IP 网 络 上 的 流 视频 : 





3) 话 路 找 制 协议 ,如 实时 流 协议 (RISb)。 
大 线 信道 的 不 稳定 状态 使 无 线 IP 网 络 上 提供 QoS 视频 传输 


面临 着 许多 挑战 。 为 解决 这 个 问题 ,提出 了 白 适应 帧 结构 |85]。 自 适应 帧 结构 包括 可 分 级 的 





视频 表示 网络 感 知 视频 应 用 和 和 和 白 适应 服务 。 
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因 特 / 巨 线 IP 网 络 
(连续 媒体 发 布 服务 ) 


图 15.1 视频 流 的 结构 


不 章 的 其 他 部 分 是 这 样 安排 的 :15.2 节 讨论 视频 压缩 技术 ， 在 15.3 节 , 我 们 给 出 流 视频 
的 应 用 层 QoS 控制 机 制 。15.4 节 描 述 连 续 媒 休 发 布 服务 。 在 15.5 节 , 讨 论 设计 流 服务 器 的 关 
键 问题 。15.6 节 介绍 各 种 媒体 同步 机 制 。15.7 节 综 述 流 视频 的 关键 协议 。15.8 节 介 绍 -~- 种 
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无 线 IP 网 络 上 流 视 频 的 自 适应 帧 结构 ,最 后 ,在 15.9 入 中 给 出 本 章 的 小 结 。 


15.2 视频 压缩 








出 于 原始 视频 省 用 大 量 的 带宽 ,在 传输 之 前 必须 进行 压缩 以 便 实现 高 效 传输 。 视 频 压缩 
方案 可 以 分 为 两 类 :可 分 级 的 和 不 可 分 级 的 视频 编码 。 如 第 11 章 所 述 ,可 分 级 视频 编码 方案 
产生 压缩 的 比特 流 , 它 的 一 部 分 是 可 解码 的 。 与 解码 全 部 的 比特 流 相 比 ,解码 部 分 的 压缩 比特 
流 将 产生 降 质 的 图 像 , 或 者 是 较 小 的 图 像 尺 寸 ,或 者 是 较 小 的 帧 率 。 已 经 证 明 , 可 分 级 视频 能 
够 很 好 地 适应 因特网 带宽 的 波动 [40,45]。 相 反 , 不 是 分 级 视频 容易 受 带宽 变化 的 影响 ,因为 
它 不 能 使 视频 表示 适应 带宽 的 变化 [45]。 而 且 ,可 分 级 视频 表示 是 在 异类 网 络 ( 例 如 具有 不 同 
接 人 带宽 的 网 络 ) 上 实现 组 播 的 一 种 高 效 ,灵活 的 方法 [40,45]。 由 于 这 些 原因 ,所 有 的 流 视频 
服务 都 使 用 可 分 级 的 视频 编码 技术 。 关 于 各 种 可 分 级 编码 方法 的 讨论 见 第 11 章 。 下 面 介绍 
WEF QoS 控制 机 制 , 它 能 够 根据 网 络 状况 和 QoS 需求 调节 视频 比特 流 。 

































































15.3 流 视 频 的 应 用 层 QoS 控制 

















在 出 现 丢 包 和 可 用 带宽 变化 的 情况 下 ,应 用 层 QoS 控制 可 以 最 大 限度 地 提高 视频 质量 。 
应 用 层 QoS 控制 技术 包括 拥塞 控制 和 益 错 控制 。 这 些 技术 应 用 于 终端 系统 ,并 不 需要 路 由 器 
和 网 络 的 QoS 支持 。15.3.1 节 概 述 拥塞 控制 方法 ,15.3.2 节 描述 差错 控制 的 机 制 。 


15.3.1 拥塞 控制 


突 发 到 失 和 超时 延迟 对 视频 演播 质量 具有 破坏 性 的 效果 ,而 它们 往往 是 由 于 网 络 拥塞 选 
成 的 。 减 少 和 于 包 和 延迟 的 一 个 方法 是 在 信 源 和 /或 接收 端 应 用 拥塞 控制 。 

拥塞 榨 制 有 两 种 机 制 : 码 率 控制 和 码 率 整形 。 码 率 控制 通过 使 视频 流 的 码 率 与 可 用 的 网 
络 带 宽 相 匹 配 , 力 求 将 网 络 拥塞 和 丑 包 的 数目 降 至 最 低 。 亨 码 率 整形 迫使 信 源 以 码 率 榨 制 算 
法 规定 的 码 率 发 送 视 频 流 。 

码 率 控制 ” 码 率 榨 制 是 一 个 基于 估计 的 网 络 中 的 可 用 带宽 确定 视频 通信 发 送 码 率 的 技 
术 0。 现 有 的 码 率 控制 方案 可 分 为 三 类 :基于 信 源 的 ,基于 接收 端的 和 混合 的 码 率 控制 。 

基于 信 源 的 码 率 控 制 : 在 基于 信 源 的 码 率 控制 下 ,出 发 信 方 负责 调节 视频 传输 码 率 。 通 
常 ,基于 信 源 的 码 率 控制 机 制 要 利用 反馈 。 发 信 方 根据 网 络 的 反馈 信息 调节 视频 流 的 码 率 。 
基于 信 源 的 码 率 控制 可 应 用 于 单 播 [81] 和 组 播 18]。 

对 于 单 播 , 现 有 的 基于 信 源 的 码 率 控制 机 制 按照 两 种 方法 实现 :基于 探测 器 的 方法 和 基于 
模型 的 方法 。 

基于 探测 器 的 方法 建立 在 探测 实验 的 基础 上。 明确 地 说 , 信 源 通过 调节 发 送 的 码 率 探测 
可 用 的 网 络 带 宽 , 方 法 是 使 丢 包 率 p DFT BUA Pu[81]。 有 了 商 种 方法 用 于 调节 发 送 码 率 ， 




















D 在 9.3-4 攻 我 们 把 码 率 掠 制 问题 定义 为 (1 确定 适当 的 编码 速率 ,(2) 调 节 编 码 参 数 以 满足 日 标 码 率 。 水 节 中 的 码 
率 控制 只 是 措 第 一 项 任务 。 
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OPARA ,乘法 降低 [81] ,(2) 乘 法 提高 RARA]. 
基于 模型 的 方法 建立 在 一 个 TCP 连接 的 在 吐 量 模 型 基础 上。 明确 地 说 ,一 个 TCP 连接 的 
ADE kta h FARE: 


1.22 x MTU 
à = riers (5.3.1) 

其 中 人 是 TCP 连接 的 吞吐 晶 ,MTU( 最 大 传输 单 泡 ) 是 该 连接 所 用 的 包 的 大 小 ,RIT 是 这 个 连接 
的 往返 时 间 ,p 为 该 连结 经 历 的 丢 包 率 ,， 在 基于 模型 的 码 率 控制 下 ,公式 (15.3.1) 用 于 决定 视 
频 流 的 发 送 码 率 。 这 样 ,视频 连接 可 以 通过 类 似 于 TCP 的 方式 避免 拥塞 ,并 且 可 以 与 TCP 流 
公平 竞争 。 因 此 ,基于 模型 的 码 率 控制 又 称 为 “TCP Mh abet 

ATF SE ERO il FG 2 IT) -条 通道 把 视频 发 送 到 接收 端 。 所 以 组 
播 又 称 为 “ 单 信道 组 播 "。 对 于 单 通道 组 播 只 能 使 用 基于 探测 器 的 码 兴 控 制 18]。 

向 于 所 有 的 接收 端 共 用 一 条 信道 , 单 信道 组 播 是 高 效 的 ， 然 而 单 信道 组 播 不 能 提供 灵活 
的 服务 以 满足 共有 各 种 接 入 殿 宽 的 接收 端的 不 同 需 求 。 相 反 , 如 果 通 过 各 白 的 单 播 流传 送 多 
点 视频 ,那么 带宽 的 利用 率 很 低 ,但 服务 可 以 被 区 分 开 , 因 为 每 个 接收 端 都 可 以 与 信 源 协商 服 
务 参 数 。 单 播 和 单 通 道 组 播 是 两 种 极端 的 情况 ,如 图 15.2 所 示 ， 为 了 实 规 多 点 传送 视频 在 带 
宽 利 用 党 和 服务 灵活 性 之 间 较 好 的 拆 中 ,已 经 提出 了 基于 接收 端的 碍 率 控制 和 旋 合 的 倍率 控 
制 。 

































































EET i 单 点 发 送 
多 点 发 送 ! 
P * 
; 
i 
高 | PRHAK ca 


TBR EA 
的 码 率 控制 
图 15.2 利用 率 和 灵活 性 之 问 的 折 中 


莹 于 接收 端的 码 率 控制 .在 基 寸 接收 英 的 码 率 掠 制 下 ,接收 端 遂 过 增加 或 于 弃 通 道 米 调 池 
接收 的 视频 流 码 率 ,而 发 信 方 不 参加 码 率 控制 。 一 般 ,基于 接收 端的 码 率 控 制 只 应 用 于 分 层 的 
组 播 ,而 不 应 用 于 单 播 视频 。 

类 似 于 基于 信 源 的 码 率 控制 , 现 有 的 基于 接收 端的 码 率 控制 机 制 按照 两 种 方法 实现 ;基于 
探测 器 的 方法 和 基于 模型 的 方法 。 某 本 的 基于 探测 器 的 码 闪 控 制 [45] 包 含 岗 部 分 

1. 当 没 有 检测 到 折 塞 时 ,接收 端 通过 增加 - 层 来 探 油箱 利用 带宽 ,从 而 提高 了 它 的 接收 

码 率 。 若 在 加 入 一 层 后 没有 检测 到 拥塞 , 则 如 入 实验 成 荔 、 否 则 ,接收 端 丢 掉 新 加 入 
HOE. 
2. 如 果 检 测 到 拥塞 ,接收 端 丢掉 -- 层 ,使 它 的 接收 码 率 降低 。 
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不 同 于 通过 探测 实验 隐 含 地 估计 可 用 网 络 带 宽 的 基于 探测 器 的 方法 ,基于 模型 的 方法 直 
接 估计 可 用 网 络 带宽 。 基 于 模 击 的 方法 是 基于 TCP 连接 的 吞吐 量 模型 , 即 公 式 (15.3.1), 如 在 








基于 信 源 的 码 率 榨 制 下 所 描述 的 那样 。 因 此 基于 模型 的 码 率 控制 也 是 “TCP 友好 的 ”。 





混合 的 码 率 控 制 ,在 混合 的 码 率 控制 下 ,接收 端 通过 增加 或 丢弃 谱 道 来 调节 接收 码 率 , 问 
时 发 信 方 根据 从 接收 端 反馈 回 的 信息 也 调节 发 送 码 率 。 混 合 码 率 控制 的 一 个 例子 是 目 的 地 集 














分 组 [13]。 


WREKE ” 道 过 但 率 整 候 技术 可 以 将 预 讨 缩 的 视频 比特 流 的 码 率 修正 到 目标 码 率 限 制 。 
码 率 整形 锋 是 压缩 层 与 网 络 传输 层 之 间 戌 两 个 网 络 段 之 闻 的 一 个 挡 盯 (或 滤波 器 ) ,通过 它 可 


以 达到 视频 流 与 可 用 带宽 之 间 的 匹配 。 
有 许多 类 型 的 码 率 鉴 形 器 或 滤波 器 [37] ,包括 : 


1, 编 解 码 汪 波 器 ， 编 解码 滤波 器 对 视频 流 进行 压缩 和 解压 。 它 们 通常 用 于 实现 不 出 讨 
缩 方 案 之 问 的 转 码 。 取 决 于 所 用 的 压缩 算法 ， 转 码 可 以 简化 ,无须 全 部 解压 缩 和 再 





压缩 。 


2. 弃 帕 滤波 器 : 弃 帧 滤波 器 可 以 辨别 帧 的 类 型 (例如 MPEG HAY ERP WERI B 帧 ), 并 根 
据 巾 的 重要 程度 丢弃 茶 些 帧 。 例 如 , 弃 帧 顺序 可 能 首先 是 BB 帧 ,其 次 是 P 了 帧 ,最 后 是 I 
帧 。 弃 帧 滤波 器 通过 丢掉 - -定数 日 的 帧 降低 视频 流 的 码 率 。 璋 余 的 帧 只 需要 较 低 的 








码 率 。 这 种 请 波 器 可 以 用 于 信 源 [90] 或 网 络 上 ( 见 15.4.1 节 )。 


3. 弃 层 施 波 器 : 弃 层 滤波 器 可 以 识别 并 根据 重要 程度 于 奔 某 些 层 。 琉 弈 顺序 从 最 高 增强 





层 往 下 到 基本 层 。 


4 .频率 滤波 器 :频率 滤波 器 在 压缩 层 进行 运算 。 明 确 地 说 ,它们 工作 在 频 域 ( 即 DCT 系 


数 )。 频 率 请 波 机 制 包括 低 通 . 退 色 和 彩色 到 单 色 滤 波 。 


低 通 滤波 器 丢掉 较 高 频率 的 DCT 系数 。 除 了 只 处 理 视频 流 中 的 色 度 信息 以 外 , 退 
色 潍 波 器 的 作用 类 似 于 低 通 滤波 器 。 彩 色 到 单 色 滤波 器 从 视频 流 中 去 壤 全 部 的 彩色 信 





Eko E MPEG 中 ,这 是 通过 将 色 度 蕊 用 空 块 蔡 换 实现 的 。 


SFP WEBEL aR ADR ,频率 滤波 器 在 降低 带宽 的 同时 不 影响 帧 率 ,而 呼 降低 了 最 终 帧 


的 最 示 质 量 。 


5. 再 量化 滤波 器 ;再 量化 滤波 器 在 压缩 层 进行 运算 ( 即 DCT 系数 )。 这 种 滤波 器 首先 通过 
反 量化 从 压缩 的 视频 流 中 提取 DOT 系数 ,然后 用 较 大 的 量化 步 长 对 DCT 系数 进行 其 














化 ,从 而 降低 了 码 率 ; 


综 上 所 述 , 皇 塞 控制 的 目的 是 防止 委 包 。 然 而 事实 是 在 因特网 上 和美 包 是 不 可 避免 的 ,并 且 


可 能 纯 著 地 影响 接收 质量 ,这 就 促使 了 在 出 现 委 包 的 情况 下 使 视频 演播 质量 最 优化 的 
设计 。 差 错 控制 就 图 这 样 一 种 机 制 。 


15.3.2 差错 控制 
在 第 14 章 讨 论 过 视频 通信 中 的 差错 控制 技术 。 这 里 ,我 们 把 差错 控制 技术 分 为 四 








制 的 


类 : 传 


输 层 差错 控制 ,包括 FEC 和 限制 延迟 重 发 ;编码 器 差错 复原 编码 ; 解码 器 错误 隐藏 ; 和 编码 器 


解码 器 交互 的 差错 榨 制 。 这 里 我 们 描述 几 种 在 视频 流 应 用 中 有 效 的 差错 榨 制 技术 。 





FEC FEC 车 在 原始 消息 流 中 加 入 元 余 信息 工作 ,使 得 在 出 现 丢 包 的 情况 下 可 以 和 


BEN 
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息 : 在 因特网 应 用 中 ,一 般 是 穿越 包 进行 块 编码 。 其 体 地 说 ,首先 将 视频 流 分 成 段 ,每 一 段 打 
;然后 对 每 一 段 穿 越 这 上 个 包 进 行 块 编码 (例如 Tomado 编码 [1]), 生 成 一 个 具有 n 
个 包 的 块 ,其 中 n> ko ARERR TE ,用 户 只 需 在 具有 n 个 包 的 块 中 接收 到 任意 个 包 。 

限制 延迟 重 发 ”通常 在 实时 视频 传输 中 不 考虑 重 发 的 方法 ,办 为 重 发 的 包 可 能 错过 它 的 
演播 时 间 。 然 而 ,在 流 服务 中 ,如 果 包 的 单程 传输 时 间 小 于 最 大 的 允许 延迟 ,那么 限制 延迟 重 
发 号 差错 控制 的 -个 可 行 的 选择 ( 见 14.3.3 节 )。 

对 于 单 播 , 根 据 由 谁 决定 向 何 处 发 送 和 /或 响应 重 发 请 求 , 已 经 提出 了 三 种 限制 延迟 的 重 
发 机 制 ;基于 收 信 方 的 ,基于 发 信 方 的 和 混合 的 控制 。 

基于 收 信 方 控制 的 目标 是 使 卷 些 不 能 按 时 到 达 并 品 示 的 重 发 请 求 最少 。 基 于 收 信 方 的 控 
制 下 , 收 信 方 执行 如 下 算法 ; 

如 果 收 信 方 检测 到 六 TUER: 

若 (T. + RIT+ D, < T,CN)) 

则 向 发 信 方 送出 N 个 包 的 请 求 
其 中 了 是 当前 的 时 刻 ,RTT 是 估计 的 往返 时 间 ,D, 是 松 弛 项 , P(N) 是 包 N 显示 的 确定 时 刻 。 
松弛 项 D, 可 以 包括 RTT 的 佑 计谋 差 容 限 , 发 信 方 的 响应 时 间 和 收 信 方 的 解码 延 时 。 基 于 收 
信 方 控制 的 定时 阁 如 图 15.3 所 示 , 其 中 D, 只 是 收 信和 方 的 解码 延 时 。 
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15.3 基 二 收 信 方 控制 的 定时 图 


莽 十 发 信 方 控制 的 目标 是 取消 那些 将 错过 在 收 信 方 的 显示 时 刻 的 重 发 请 求 。 存 基于 发 
信 方 的 控制 下 ,发售 方 执行 如 下 竺 法: 
当 发 信 方 收 到 N POLAR AT 
(T, + RTT/2 + D, < TP,(N)) 
MER N 个 包 到 收 信 方 
其 中 Ty ONDE T (DAE 
混合 控制 是 其 于 发 信 方 和 基 寺 收 信 方 控制 的 简单 联合 。 
在 组 播 的 情况 下 , 重 发 必须 限制 在 位 置 较 近 的 组 播 成 员 之 内 ,这 是 因为 在 这 些 成 员 之 间 单 
程 传输 时 间 会 比较 小 ,使 得 重 发 的 效率 绞 高 。 典 型 地 是 配置 一 个 做 辑 树 来 限制 重 发 需求 的 数 
明和 范围 ,并 了 实现 位 置 较 近 的 组 播 成 员 之 问 的 差错 复原 [86]。 此 外 ,为 解决 异类 问题 ,可 以 
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采用 一 个 差错 复原 的 收 信 方 启动 机 制 [86]。 

差错 复原 编码 ”如 14.4 节 所 述 ,差错 复原 技术 是 从 压缩 的 角度 解决 丢失 复原 问题 。 具体 
地 说 ,它们 力图 阻止 误 鞭 累积 或 限制 在 压缩 层 中 破坏 (出 玉 包 引起 的 ) 的 范围 。 标 准 化 的 差错 
复原 工具 包括 重 辣 步 标记 数据 划分 和 可 道 的 可 变 长 编码 [35,68]( 见 14.4 节 )。 这 些 技术 主 
要 针对 比特 链 误 占 主导 地 位 的 环境 ,如 无 线 遂 道 。 对 于 内 特 网 上 的 视频 应 用 ,由 于 采用 基于 包 
的 传送 方式 … -个 委 包 有 可 能 导致 所 有 运动 数据 以 及 相关 的 形状 和 纹理 数据 的 丢失 ,这 些 技术 
可 能 不 是 很 有 用 的 。 而 且 , 包 的 边界 已 经 为 收 仿 方 提供 了 可 变 长 编码 比特 流 的 同步 点 ,使 得 重 
同步 标记 有 些 多余 。 
对 于 健壮 的 因特网 视频 传输 ,更 有 希望 的 呵 种 技术 是 最 佳 模式 选择 和 多 措 述 编码 。 
FEM AR RATE, 美 包 对 于 视频 演播 质量 的 影响 依赖 于 信 源 采用 的 编码 方案 .网 
络 的 拥塞 状况 以 及 接收 端 采 用 的 错误 降 藏 方案 . 高 压缩 率 编码 算法 通常 采用 帧 间 编 码 ( 即 巴 
测 ) 以 获得 编码 效率 。 对 于 这 些 编 但 算法 ,一 个 包 的 丢失 有 可 能 导致 大 量 帧 的 视频 质量 退化 ， 
直到 接收 到 下 一 -个 帧 内 编码 帧 为 止 。 幢 内 编码 可 以 有 效 地 附 止 误差 累积 ,代价 是 编 公 效率 不 
遍 ; 而 帧 间 编 码 可 以 提高 压缩 效率 ,风险 是 误差 累积 。 因 此 一 个 好 的 在 帧 内 模式 和 帧 亲 模 式 之 
间 的 选择 栅 制 应 该 增强 由 帧 内 和 帧 间 编 码 所 压缩 的 视频 的 健壮 性 { 见 图 15.4)。 
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在 RD 意义 上 最 优 
图 15.4 最 佳 模式 选择 取决 于 网 络 条 件 


对 于 网 络 视频 传输 ,如 H.263 或 MPEC-4[35] 等 编码 算法 通常 会 调节 输出 码 率 , 使 之 与 可 
用 带宽 相 正 配 。 调 节 玛 率 的 压缩 算法 的 日 标 是 在 给 定 比 特 预算 的 限制 下 ,使 视频 质量 最 优 。 
这 可 以 通过 在 给 定 的 比特 预算 下 ,选择 一 种 使 原始 与 重建 帧 或 宏 块 之 间 的 量化 失真 为 最 小 的 
模式 来 实现 [52] ,这 就 是 所 谓 的 RD 最 优 模式 选择 ( 见 9.3.3 节 )。 我 们 把 这 种 RD 最 优 模式 选 
择 称 为 经 典 方法 ,经 典 方法 在 易 出 错 的 环境 下 不 能 实现 全 局 最 优 ,因为 它 没有 考虑 网 络 视 塞 的 
状况 和 接收 端的 特性 。 

为 解决 这 个 问题 ,Wu 等 [83] 为 RD 最 优 模 式 选 择 提出 了 一 种 端 对 端的 方法 。 这 个 方法 考 
虑 了 对 于 接收 端 视频 演播 质量 具有 影响 的 所 有 三 个 因 案 :() 信 流 的 特点 ; (2) 信 道 的 特 件 ; (3) 
接收 端的 特点 。 由 于 考虑 了 网 络 拥塞 状态 和 接收 端的 特点 ,已 经 证 明 这 种 方法 对 于 因特网 视 
频 应 用 能 够 给 出 比 经 典 方法 更 优越 的 性 能 [83]。 其 他 的 考虑 了 传输 准 错 效应 的 模式 选择 方法 
已 经 在 14.4.3 节 介绍 了 。 

多 描述 编码 : 多 搞 述 编码 (14.4.5 节 ) 是 另 一 种 兼顾 压缩 效率 和 丢 包 健壮 性 的 方法 。 与 
14.4 节 所 述 的 其 他 差错 复原 技术 相 比 , 它 更 能 在 效 地 解决 入 包 问 题 。 为 了 在 因特网 上 传送 
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MDC 流 , 来 白 不 同 描述 的 比特 应 该 分 别 打包 ,并 最 好 道 过 不 同 的 路 径 传输 。 另 一 种 方法 是 ,把 
合 有 不 同 描 述 的 包 适 当地 进行 交织 ,使 得 通信 拥塞 不 会 导 和 化 丢失 所 有 的 描述 。 

错误 隐藏 ” 当 检 测 到 去 包 时 ,接收 端 可 以 利用 错误 隐藏 来 隐藏 丢失 的 数据 ,从 而 使 显示 更 
吕 悦 日 。 出 于 观众 可 以 容光 一 定 程度 的 视频 信号 失真 ,错误 隐藏 是 解 次 于 包 问题 的 一 种 可 行 
的 技术 -80] 。 

如 14.5 PAR ,错误 隐藏 有 两 种 基本 的 方法 , 称 为 空间 内 播 和 时 间 内 插 ， 在 空间 内 插 中 ， 
于 失 的 像素 值 由 相 邻 的 空间 信息 重建 ;而 在 时 间 内 插 中 ,丢失 的 数据 由 以 前 帧 的 数据 重建 。 - 
般 情 况 下 ,空间 内 插 用 丁 重建 帧 内 编码 帧 中 丢失 的 数据 ,而 时 间 内 插 用 于 重建 幢 间 编 色 帧 中 丢 
失 的 数据 - 

对 于 党 要 实时 解码 的 流 应 用 ,14.5 节 中 介绍 的 大 多 数 技术 过 于 复杂 。 最 可 行 和 有 效 的 技 
术 臣 运动 补偿 时 间 内 插 ( 见 4.5, 上 节 ), 在 这 种 方法 中 ,接收 端 用 前 一 帧 中 由 运动 矢量 指示 的 
抉 代替 受 损 的 大。 如 果 邻 近 的 运动 矢 世 可 以 利用 ,这 个 运动 矢量 可 以 从 受 损 块 邻 鼎 复制 ,否则 
将 运动 矢量 置 为 老 

以 上 我 们 回顾 7 各 种 应 THIR QoS 控制 技术 。 这 些 技术 被 终端 系统 所 采用 ,并 不 需要 路 由 
器 或 网 络 的 支持 。 疗 网 络 支 持 视频 流 的 QoS, 则 性 能 将 进一步 增强 。 下 面 ,我 们 给 出 为 最 尽力 
的 因特网 开发 的 QoS 支持 机 制 。 


15.4 连续 媒体 发 布 服务 


为 了 提供 高 质量 的 多 媒体 演播 ,网 络 的 支持 是 重要 的 ， 这 是 央 为 网 络 的 支持 可 以 降低 传 
AGEL HE OLA. MAERUA Wy PEER PAL TE Al rh EF ERRER 
OF MARY POSS RR A eM, WP EAR 
《下 协议 ), 连 续 媒 体 发 布 服务 设计 的 目的 是 提供 QoSs, 并 且 实 现 流 视频 和 音频 在 最 尽力 的 因 特 
网 上 的 高 效 传 输 。 连 续 媒 体 发 布 服务 包括 网 络 滤波 .应用 层 组 播 和 内 容 复 制 ,这 些 将 分 别 在 
15.4.1 节 ~ 15.4.3 WRM, 


15.4.1 网 络 滤波 


类 似 于 岳 塞 控制 技术 ,网络 凄 波 的 目的 也 是 在 网 络 拥塞 叶 使 视频 质量 最 优化 。 如 15.3.1 
节 所 述 , 视 频 服务 器 中 的 小 波 器 可 以 根据 网 络 拥塞 的 状况 调节 视频 流 的 码 率 。 然 而 ,要 视频 服 
务 器 处 理 为 调节 每 一 个 单 播 视频 流 所 需要 的 计算 ,可 能 是 过 于 繁忙 了 。 央 此 服务 提供 者 希望 
把 滤波 器 配置 在 网 络 上 .32]。 图 15.5 示 出 了 -个 网 络 滤波 的 例子 。 在 图 中 ,节点 “R” 代 表 路 
贝 器 , 它 并 不 知道 媒体 流 的 格式 ,并 日 会 随机 地 丢弃 数据 包 。“ 滤 波 器 "节点 接收 客户 的 请 求 ， 
并 相应 地 调 季 从 服务 器 送出 的 码 流 。 这 个 解决 方案 允许 服务 提供 者 将 滩 波 器 配置 在 连接 网 络 
EMR WAL ,并且 服 务 器 到 穷 户 的 路 径 上 可 以 有 多 个 泪 波 器 。 
为 了 说 明 滤 波 器 的 作用 ,一 个 系统 模型 示 于 图 15.6i32]。 这 个 模型 包括 服务 器 .客户 、 至 
一 个 滤波 内 以 及 它们 之 间 的 两 条 虚拟 通道 。 这 两 条 庶 拟 通道 ,一 条 用 于 控制 , 另 一 条 用 于 数 
据 ， 同 样 的 通道 存在 于 任意 一 对 滤波 器 之 间 。 控 制 通道 是 双向 的 ,可 由 TCP 连接 实现 。 图 
15.6 所 泵 的 模型 允许 客户 只 与 一 个 主机 (最 近 的 滤波 器 ) 通 信 , 主 机 或 者 将 请 求 上 传 或 者 响应 
这 些 请 求 。 滤 波 器 在 数据 面 上 的 操作 包括 ; (1) 接收 来 自 服务 器 上 或 上 一 级 滤波 器 的 坑 频 流 ; 
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(2) 把 视频 数据 以 目标 码 率 发 送 给 客户 或 下 一 级 滤波 器 。 滤 波 器 在 控制 面 上 的 操作 包括: (1) 
接收 来 自 客户 或 下 一 级 滤波 器 的 请 求 ;(2) 响 应 请 求 ;(3) 将 请 冰 传 至 上 一 级 滤波 器。 





客户 
































图 15.5 网 络 滤波 器 


|g 控制 控制 
服务 器 中 ee 客户 
数据 数据 
图 15.6 - ' 个 网 络 滤波 的 系统 模型 


弃 帧 滤波 器 ( 见 15,3.1 季 ) 一 般 作 为 网 络 滤波 器 使 用 。 接 收 端 通过 向 滤波 器 发 送 增加 或 
碱 小 弃 帧 率 的 请 求 ,可 以 改变 媒体 流 的 带宽 。 为 了 便于 确定 滤波 器 是 应 该 增加 还 是 应 该 减 小 
带宽 ,接收 端 不 断 地 测 景 丢 包 率 p, WERAK , 码 率 整形 机 制 按 如 下 方法 设计 [32]。 如 果 技 
BEATAM a , 则 客户 将 请 求 滤波 器 增加 弃 帧 率 ;如 果 丢 包 率 小 于 另 MAE 8(8 <a) E 
收 端 则 请 求 滤波 器 减 小 弃 帧 率 。 
在 网 络 上 使 用 充 幢 滤波 器 的 优点 如 下 : 
9 改善 视频 质量 例如 , 当 视 频 流 从 一 个 具有 较 大 可 用 带宽 的 上 游 线 路 流向 一 个 具有 较 
小 可 用 带宽 的 下 游 线 路 时 ,在 线路 的 结合 点 使 用 .个 弃 幢 滤 波 器 将 有 助 于 改善 视频 质 
其 。 这 是 因为 滤波 器 理解 媒体 流 的 格式 ,并 且 所 采取 的 丢 包 方式 是 适度 地 降低 流质 量 ， 
侧 不 是 直接 地 破坏 流 。 
带宽 利用 率 高 ”通过 丢弃 迟到 的 帧 或 因 要 素 包 的 丢失 而 草 到 吾 坏 的 帧 ,滤波 可 以 节省 
网 络 资源 。 


注意 ,网 络 滤波 针对 的 是 单 播 ( 邑 点 对 点 ) 媒 体 流 。 下 面 介绍 一 种 流 媒 体 的 组 播 机 制 。 
15.4.2 应 用 层 组 播 


因特网 的 原始 设计 完全 适 于 点 对 点 的 应 用 ,如 电子 邮件 ,文件 传输 和 Web 浏览 ,但 不 能 有 
数 地 支持 大 容 基 的 传输 ,如 流 媒体 组 播 。 为 了 克服 这 个 缺点 ,20 世纪 90 年 代 初 提出 了 “IP 组 
播 " 技 术 。 作 为 耳 层 的 一 个 扩展 , 焉 组 播 能 够 提供 高 效 的 多 点 数据 包 传送 。 其 特点 是 ,传输 的 
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有 效 性 是 通过 保证 沿 下 组 播 树 由 任何 一 个 物理 路 径 只 传输 原始 让 数据 包 ( 由 组 播 信 源 送 贡 
的 } 的 一 个 剧本 调 实 现 的 。 然 而 ,经 过 |- 华 有 价值 的 研究 和 开发 ,IP 组 播 依然 受到 诸如 可 分 级 
性 、 网 络 管理 网络 配置 和 支 层 功能 (如 关 错 控制 , 流 控 制 和 拥塞 控制 ) 等 有 关 问 题 的 困扰 。 
为 解决 这 些 同 题 ,提出 本 应 用 层 组 播 机 制 [21] ,应 用 层 组 播 的 上 标 是 在 肉 特 朵 和 传统 下 网 络 
IZEARA 

Jet HA See ASR Bell POA SR 7 AS BERR (CSP) ,因特网 服务 供应 商 (ISP) 或 企业 建立 
FYB ASE, IPG TAR AB ACG BF LA Ha PS”, SE A a a ERE 
网 络 叮 以 支持 应 几 层 或 流 媒 体 /内 容 层 上 的 “对 等 关系 ”, 在 奢 里 ,内 容 中 枢 链 路 与 服务 供应 商 
世相 连接 -因此 ,正如 因特网 是 由 各 JSP 之 间 通 过 包 层 的 对 等 关系 实现 的 网 络 相连 建立 起 来 
的 一 样 ,媒体 红 播 网 络 可 以 由 多 个 内 容 发 布 网 络 末 相连 接 建 立 起 来 ,这 些 网 络 是 通过 各 种 服务 
供应 商 … 一 如 传统 的 ISP .CSP 和 应 用 服务 供应 商 ( 4SP) 一 一 之 间 应 咱 层 的 对 等 关系 实现 的 。 

媒体 组 播 网 络 的 工作 描述 如 下 。 在 媒体 组 播 网 络 中 ,每 一 个 能 够 组 播 的 节点 ( 称 之 为 媒体 
恬 [21T) 在 点 用 层 和 进行 路 由 选择 。 此 外 ,每 “个 媒体 桥 与 - :个 或 多 个 机 邻 的 媒体 侨 通 过 显 式 配 
冯 相 熙 连接 ,这 种 配置 定义 了 应 用 层 的 重 碍 拓扑 结构 。 一 个 媒体 组 播 网 络 中 的 媒体 桥 都 共同 
地 使 用 一 个 分 布 式 应 用 居 组 播 路 出 算 法 ,为 通过 网 络 传播 内 容 确 定 最 住 的 虚拟 路 谷 。 当 所 全 
用 的 网 络 发 送 失败 或 过 于 拥挤 时 ,媒体 组 播 网 络 根据 应 用 层 路 由 策略 , 自动 地 .动态 地 把 内 容 
改换 到 另 -条 小花 上 。 此 外 , 当 且 只 当下 游 用 户 请 求 时 媒体 桥 才 动 态 地 预定 组 描 内 容 ， 这 就 
保证 了 在 任 一 条 物理 的 或 虚拟 的 路 径 上 有 且 只 有 - -个 组 播 内 容 的 副本 流 过 ,与 下 游 用 户 的 数 
AK ,从 而 节省 了 网 络 带宽 。 

应 败 居 组 播 的 优越 性 在 于 它 打 焉 了 企 可 分 级 性 ,网络 管 理 和 支持 期 寨 控制 之 间 的 界限 ,而 
这 个 界限 曾 阳 止 各 ISP 建立 “IP 组 播 " 的 对 等 配 交 。 


15.4.3 内 容 复制 


抠 虽 媒体 传送 系统 的 可 分 级 性 的 一 个 基本 技术 是 内 容 /媒体 复制 。 内 容 复制 采取 两 种 方 
式 , 称 为 缓冲 他 储 和 镜像 存储 ,它们 已 被 发 行商 CSP 和 ISP 所 配置 。 不论 是 缓冲 存储 还 足 镜 
像 仔 储 , 邦 是 寻 求 将 内 容 存 放 在 距离 客户 蝴 近 的 地 方 , 目 二 者 共有 如 下 优点 : 

© 减 小 了 网 络 线路 上 的 带宽 消 村 ; 

© 减 小 了 流 服 务 器 的 负担 ; 

8 减 小 了 容 户 的 等 待 时 间 ; 

ening fal. 

镜像 存储 将 原始 多 媒体 文件 的 副本 分 散 地 存放 在 因特网 的 多 个 服务 器 上 。 也 就 是 说 , 诛 
始 多 媒体 文件 存放 在 主 服务 器 上 ,同时 这 些 文件 的 前 本 存放 在 复制 服务 器 上 。 遂 过 这 种 方法 ， 
容 户 就 可 以 从 离 它 最 近 的 复制 服务 器 上 提 版 多 媒体 数据 ,从 而 为 用 户 提 供 最 好 的 性 能 (如 最 小 
的 等 待 时 间 )。 镜 像 存储 具有 有 若干 优点 ,例如 : 

© 所 有 的 内 容 都 被 复制 下 来 

全 发 行商 可 以 看 到 服务 器 访问 日 志 , 从 而 实现 对 用 户 的 跟踪 ,， 

另 一 方面 ,镜像 仓储 也 有 一 些 缺 点 。 目 前 ,建立 专用 的 镜像 存储 的 机 制 是 昂贵 的 .特殊 的 
和 缓慢 的 。 此 外 ,在 -- 个 现 有 的 (不 是 复制 ) 服 务 器 上 建立 镜像 存储 ,即使 是 便宜 的 ,依然 是 一 
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个 特殊 的 和 管理 复 杂 的 过 程 。 最 后 ,还 没有 标准 的 方法 使 文稿 编排 稳 序 和 服务 器 设置 能 容易 
地 从 一 个 服务 器 移植 到 另 一 个 服务 器 。 

缓冲 存储 是 基于 假定 许多 不 同 的 客户 会 下 载 相同 的 内 容 ,在 本 地 制作 内 容 的 副本 供 客户 
取 有 用。 单一 组 织 内 的 客户 一 般 从 单一 的 称 为 超 高 速 缓 串 存 储 器 的 本 屯 机 取出 所 有 的 内 容 。 超 
高 速 缓冲 存储 器 从 流 服务 器 读 皮 一 个 视频 文件 ,存储 它 的 -- 个 本 地 副本 ,然后 发 送 给 请 求 它 的 
客户 。 如 果 客户 所 请 求 的 文件 已 经 存储 在 超 高 速 缓冲 存储 器 上, 超 高 速 缓冲 存储 器 将 直接 把 
文件 返 送 给 客户 ,而 不 是 再 返回 到 放置 该 视频 的 流 服务 器 。 此 外 ,缓存 共享 和 缓存 器 体系 允许 
每 个 超 高 速 缓冲 存储 器 访问 其 他 超 高 速 缓冲 存储 器 上 的 文件 ,这 样 就 减轻 了 主 服 务 器 的 负担 ， 
缓解 了 系统 瓶颈 [11,20]。 

缓冲 存储 有 如 下 优点 : 

。 超 高 速 缓冲 存储 器 可 以 形成 一 个 所 有 流 服务 器 其 亭 的 内 部 结构 ; 

© 超 高 速 缓冲 存储 器 的 可 配置 性 日 痊 增加 。 


内 为 上 述 原 因 ,JSP 已 经 成 为 缓冲 存储 的 最 大 支 封 者。 然而 , 超 商 速 艘 冲 存 储 器 不 能 提供 
发 行商 所 需 的 服务 :支持 服务 质量 和 安全 人性。 首先 , 当 超 高 速 缓冲 存储 器 存储 了 一 个 发 行商 的 
文件 时 , 它 不 能 保证 这 些 文件 的 处 理 质量 。 发 行商 无 法 要 求 它 的 文件 在 特定 的 时 限 内 传送 ,或 
者 要 求 超 高 速 缓冲 存 赃 器 确认 它 的 文件 副本 是 最 新 的 。 其 次 ,日 前 的 超 高 速 缓冲 存储 器 信任 
每 一 个 人 ,使得 攻击 (如 向 超 高 速 缓 串 存储 器 中 插入 虚假 的 文件 版 本 ) 呈 非常 容易 实现 的 。 最 
后 , 超 高 速 缓冲 存储 器 不 向 发 行商 提供 反馈 ,使 发 行商 无 法 进行 用 户 跟踪 。 

大 多 数 缓冲 存储 技术 针对 的 是 普通 的 Web 对 象 。 最 近 的 : - 些 研究 表明 专门 用 于 特殊 对 象 的 超 
缓冲 存储 策略 有 助 于 提高 总 体 性 能 [45]。 因 此 ,人 们 在 这 一 方向 上 做 了 大量 的 研究 [46.58,6G2,91]。 
缓冲 存储 技术 在 视频 的 一 种 直接 推广 ,是 将 全 部 的 视频 序列 存储 在 超 高 速 绥 冲 存储 器 中 。 然 而 ,由 
于 大 规模 的 视频 数据 量 利 代理 服务 器 上 可 能 有 限 的 超 高 速 缓冲 存储 空间 ,这 种 方法 可 能 是 不 实用 
的 。 作 为 蔡 代 的 方法 ,已 经 证 明 即 使 少数 缓冲 存储 的 帧 也 能 够 明显 地 改善 性 能 [4]。Miao 和 Ortega 
提出 了 两 种 视频 缓冲 存储 策略 ;初始 缓冲 存储 和 选择 性 缓冲 存储 ,这 两 种 方法 在 超 高 速 缓冲 存储 器 
中 存储 部 分 视频 流 。 特 别 是 已 经 证 明 , 选 择 性 缓冲 存储 能 够 最 大 限度 地 提高 视频 流 对 抗 网 络 拥 密 
的 健壮 性 ,同时 又 不 改变 解码 器 的 缓冲 区 容量 。 

在 这 一 节 , 我 们 介绍 了 流 媒体 的 三 种 网 络 支持 机 制 。 下 面 ,我 们 讨论 流 服务 器 设计 中 的 关 
键 问题 。 























15.5 流 服务 器 


流 服务 器 在 提供 流 服务 中 起 着 关键 的 作用 。 为 了 提供 高 质量 的 流 服务 ,要 求 流 服务 器 在 
定时 限制 下 处 理 多 媒体 数据 ,以 便 在 客户 播放 期 间 不 会 出 现 人 为 失真 (例如 视频 运动 的 科 动 和 
音频 的 爆裂 声 )。 此 外 , 流 服务 器 必须 支持 类 似 VCR 的 控制 功能 , 如 停止 .暂停 /重新 开始 、 快 
进 和 快 退 等 。 而 且 , 流 服务 器 必须 以 同步 方式 读 取 各 媒 休 内 容 。 例 如 , 污 取 -个 演讲 图 像 , 需 
要 把 视频 和 音频 与 演讲 幻灯 片 同步 。 

一 个 流 了 服务 器 通常 包含 下 而 二 个 子 系统 : 


1 .通信 程序 : 通信 程序 涉及 到 服务 器 中 实施 的 应 用 层 和 传输 协议 ( 见 图 15.1). 通过 通信 
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简 序 ,客户 可 以 与 服务 器 通信 并 以 连续 的 、 辐 步 的 方式 读 肥 多 媒体 内 容 ， 我 们 已 在 15.3 
节 介绍 过 应 用 屋 , 传 输 协 议 将 在 15.7 节 介绍 。 
2. 操 作 系统 : 与 传统 的 操作 系统 不 同 , 流 服务 器 的 操作 系统 必须 满足 流 应 用 的 实时 需求 - 
3. 存 储 系统 : 流 服 务 器 的 存储 系统 必须 支持 连续 媒体 存 赃 和 读 取 。 


下 面 ,我 们 将 分 别 在 15.5.1 节 和 15.5.2 节 讨 论 流 媒体 的 操作 系统 支持 和 存储 系统 。 
15.5.1 实时 操作 系统 


操作 系统 提供 与 基本 资源 ,如 CPU、 内 存 、 存 储 器 和 所 有 输入 输出 设备 有 关 的 各 种 服务 ， 
在 下 面 玫 季 中 ,我 们 讨论 实 对 操作 系统 特有 的 问题 ,并 综述 解决 流 服务 所 引 人 的 问题 的 有 关 方 
法 。 我 们 首先 说 明 过 程 管理 如 何 考 虑 流 媒 体 提出 的 定时 要 求 以 及 如 何 应 用 恰当 的 调度 方法 ; 
然后 措 述 如 何 管 理 资源 以 满足 定时 要 求 ;最 后 我 们 讨论 文件 管理 问题 。 

进程 管理 ”过 程 管理 安排 坏处 理 嚣 资源。 过 程 管理 器 根据 特定 的 调度 策略 把 单个 过 程 映 
射 到 CPU 资源 ,使 所 有 过 程 能 够 满足 的 它们 的 要 求 。 

为 了 实现 连续 媒体 的 定时 要 求 , 操 作 系 统 必须 使 用 实时 调度 技术 ， 大 多 数 解决 实时 调度 
问题 的 努力 只 是 多 媒体 系统 的 两 种 基本 算法 的 变种 :最 早 截止 时 间 优先 (EDF)[42] 和 单调 请 
求 率 测 度 [14]。 在 RDY 调度 中 ,对 人 竹 一 个 任务 都 指定 一- 个 截止 时 间 , 按 截 止 时间 的 增长 顺序 
依次 对 各 个 任务 进行 处 理 。 在 单调 请 求 率 油 度 中 ,每 -- 个 任务 根据 它 的 请 求 率 确定 一 个 固定 
的 优先 级 " 。 特 别 地 ,周期 最 短 ( 或 请 求 尝 景山) 的 任务 的 优先 级 最 高 ,周期 最 长 (或 请 求 率 最 
低 ) 的 任务 的 优先 线 最 低 , 然 后 按照 优先 级 的 顺序 对 各 个 任务 进行 处 理 

EDF 和 单调 请 求 率 调 度 部 具有 优先 权 。 也 就 是 说 ， 调 度 器 可 以 抢先 正在 运行 的 任务 ， 并 
且 根据 任务 的 截止 时 间或 优先 级 为 处 理 器 安排 新 的 任务 。 中 断 的 任务 稍 后 再 重新 开始 执行 。 
EDF 与 单调 请 求 率 调 度 的 区 别 如 下 所 述 。EDF 调度 器 是 基于 单 优先 级 任务 队列 ， 处 理 器 运行 
只 有 最 早 截止 时 间 的 任务 。 而 单调 请 求 率 调 度 器 是 一 个 具有 多 优先 级 任务 队列 的 静态 优先 权 
调度 器 ， 也 就 是 说 ， 直 到 所 有 在 较 高 优先 级 队列 中 的 任务 服务 完毕 后 ， 才 执行 在 较 低 优先 级 
队列 中 的 任务 。 在 网 15. 7 的 例子 中 ， 有 两 个 任务 序 列 ， 高 请 求 率 任务 序列 由 任务 1~8 给 
成 ; 低 请 求 率 序 列 由 任务 & ~ D 组 成 。 如 图 所 示 ， 在 单调 请 求 率 调度 中 ， 任 务 2 抢先 任务 A， 
因为 任务 2 其 有 较 高 的 优先 级 ; 然而， 在 EDF 中 ,任务 2 不 抢先 任务 A， 因 为 任务 2 与 任务 
起 具有 相同 的 截 I 时间 (dA = d2)。 可 见 ， 单 调 请 求 率 调度 器 比 EDF 更 倾 铝 于 任务 切换 。 
总 的 来 看 ， 黄 处 理 器 的 利用 率 低 于 69% ,那么 单调 请 求 率 算 法 能 保证 满足 所 有 的 截止 时 间 
H4: EDF 算法 能 够 达到 100 多 的 处 理 器 利用 率 ， 但 不 能 保证 处 理 基 些 过 载 期 间 的 任务 。 

资源 管理 ”多 媒体 服务 器 的 资源 包括 CPU、 内 在、 存储 设备 ,等 等 。 由 于 资源 是 有 限 的 ,多 媒 
体 服 务 器 只 能 以 所 要 求 的 QoS 服务 有 限 数 晶 的 客户 。 因 此 ,需要 资源 管理 来 处 理 资 源 以 满足 定 
时 要 求 。 资 源 管理 包括 接纳 控制 和 资源 分 配 。 具 体 地 说 ,在 接纳 -- 个 新 客户 前 ,多 媒体 服务 器 必 
须 进行 接纳 控制 测试 ,以 确定 新 的 连接 是 否 可 以 被 接纳 ,而 不 会 影响 为 现 有 的 连接 所 提供 的 性 能 
保证 ， 如 果 一 个 连接 被 接受 ,资源 管理 器 就 将 为 这 个 新 的 连接 分 配 满 足 QoS 所 党 的 资源 。 


接纳 控制 算法 可 分 为 其 类 :确定 的 [24] 和 统计 的 -76] ， 确 定 的 接纳 控制 算法 向 客户 提供 


O 我 们 假设 每 “项 任务 都 是 周期 性 的 。 
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图 15.7 EDF 与 单调 请 求 率 调度 器 的 对 比 


硬性 保 让 ;而 统计 算法 提供 统计 的 保证 ( 即 至 少 满足 某 一 团 定 百分比 的 媒体 单元 的 连续 性 需 
求 )。 确 定 的 接纳 控制 的 优点 是 简单 性 和 严格 的 质量 保证 ;其 局 限 性 是 较 低 的 服务 器 资源 利 几 
率 。 相 反 , 统 计 的 接纳 控制 提高 了 服务 器 资源 利用 率 , 它 利 用 了 人 的 感觉 容 限 以 及 多 媒体 服务 
器 在 平均 和 最 坏 情况 下 的 性 能 差异 [76]。 
相应 于 接纳 控制 算法 ,资源 分 配方 案 也 可 以 是 确定 的 和 统计 的 。 确 定 的 接纳 控制 算法 需 
要 确定 的 资源 分 配方 案 :而 统计 的 接纳 控制 算法 需要 统计 的 资源 分 配方 案 。 确 定 的 资源 分 配 
方案 为 最 坏 的 情况 留 育 余地 。 例 如 ,为 也 许 会 出 现 的 任务 所 需要 的 最 长 处 理 时 间 和 最 高 速率 
孩 留 带 宽 。 然 而 ,统计 的 资源 分 配方 案 允 许 暂时 的 过 载 ,从 而 达 刘 较 高 的 资源 利用 率 , 但 这 会 
导致 个 小 自分 比 的 QoS 破坏 。 
文件 管理 ”文件 系统 为 文件 的 存储 利 读 取 提供 了 访问 和 控制 功能 。 有 两 种 支持 文件 系统 
中 连续 媒体 的 基本 方法 。 在 第 一 种 方法 中 , 磋 盘 文件 的 组 织 保持 它 作为 离散 数据 的 形式 ( 即 一 
个 文件 不 分 散在 几 个 磁盘 上 ) ,利用 由 特殊 的 磁盘 调度 算法 所 提供 的 必要 的 实时 支持 和 足够 的 
缓存 能 力 , 米 避免 图 像 的 拉动 。 第 二 种 方法 是 把 视频 和 音频 文件 组 织 在 分 布 式 的 存储 器 上 ,如 
磁盘 阵列 。 在 第 二 种 方法 下 ,通过 把 每 个 音频 /视频 文件 分 散 或 条 形 化 存放 在 多 个 磁盘 上 可 以 
提高 磁盘 的 吞吐 量 , 利 用 磁盘 调度 算法 可 以 减 小 磁盘 的 搜索 次 数 。 
传统 的 磁盘 调度 算法 ,如 先 到 先 服务 和 SCAN[16,70] ,并 不 能 提供 实时 保证 。 因 此 ,提出 
了 许多 支持 连续 媒体 的 磁盘 调度 算法 。 它 们 包括 :SCAN-EDF[56]、 分 组 扫描 调度 (GSS)[88] 
和 动态 循环 SCAN (DC-SCAN)[31] ,分 别 介绍 如 下 。 
© SCAN-EDF 结合 了 传统 的 磁盘 调度 方法 SCAN 的 搜索 最 优化 和 EDF 机 制 的 实时 保证 
[16]。 注意 ,磁盘 调度 中 的 EDF 机 制 是 没有 优先 权 的 ,不 同 于 用 于 进程 管理 中 的 有 优先 
权 的 EDF 方案。 
e GSS 将 集合 中 的 n 个 流 分 成 g 个 组 ,分 组 的 方法 是 , 具 布 相似 的 截止 时 间 的 所 有 流 属于 
同一 组 ;一 个 组 内 的 各 个 流 按照 SCAN 进行 服务 。 
© DC-SCAN 采用 循 坏 的 SCAN[64] 服 务 顺序 ,使 磁盘 搜索 的 开销 和 交互 服务 时 间 的 波动 最 
小 化 ,从 而 得 到 高 的 吞吐 量 。 通 过 动态 地 调节 循环 SCAN 的 服务 顺序 减少 启动 延迟 。 
结果 是 ,SCAN-EDF,GSS 和 DC-SCAN 三 种 算法 能 够 提高 连续 媒体 数据 吞吐 量 , 并 且 满 足 连 
续 媒 体 所 提出 的 实时 要 求 。 
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文件 管理 所 必须 支持 的 另 一 个 功能 是 交互 式 控制 ,如 暂停 /重新 开始 、 快 进 和 快 退 。 暂 停 / 
重新 开始 操作 对 高 效 缓存 管理 方案 的 设计 形成 了 重大 的 挑战 ,因为 它们 妨碍 了 不 同 的 观众 对 
多 媒体 流 的 共享 ,这 个 问题 还 有 待 于 进一步 研究 。 快 进 和 快 退 操作 可 以 通过 以 高 于 正常 速度 
播放 媒体 实现 ,也 可 以 通过 在 以 正常 速度 播放 的 同时 距 过 某 些 数据 来 实现 。 由 于 前 一 种 方法 
会 显 英 增加 数据 率 , 因 而 它 的 直接 实现 是 不 实用 的 。 另 -一 方面 ,如 果 存 在 数据 之 间 的 依赖 性 
(例如 在 MPEG P,P WEA B 帧 取决 于 I 帧 ), 那 么 后 一 种 方法 必须 小 心地 设计 [12]。 对 于 流 
MPEG 视频 ,在 快 进 操作 时 必须 跳 计 整个 图 像 组 (GOP), 观众 看 计 的 是 普通 清晰 朗 的 带 有 间隙 
的 视频 ,但 这 大 可 以 接受 的 。 


15.5.2 存储 系统 


多 媒体 存储 系统 设计 的 挑战 性 问题 是 高 吞吐 量 .大 容量 和 容错 性 。 

数据 条 形 化 一 个 提高 香 吐 量 的 方法 ”如 果 一 个 完整 的 视频 文件 存放 在 一 个 磁极 上 ,那么 
对 这 个 文件 加 时 访问 的 数 日 就 会 受到 磁盘 存 吐 量 的 限制 。 这 就 规定 了 能 够 观看 同一 个 视频 文 
件 的 客户 数 ， 为 了 克服 这 个 限制 ,数据 条 形 化 的 概念 被 提出 来 163]。 在 数据 条 形 化 方案 下 ,一 
个 多 媒体 文件 分 散在 多 个 磁盘 上 ,并 旦 可 以 并 行 访 问 这 个 磁盘 阵列 。 一 个 数据 条 形 化 的 例子 
示 于 图 15.8。 如 图 15.8 所 示 ,文件 A 的 块 1. 块 2 和 块 3 可 以 并 行 赎 取 ,从 而 加 大 了 春 呀 量 。 
数据 条 形 化 方案 设计 中 一 个 重要 问题 是 平衡 最 重负 载 砚 盘 的 负 侍 以 避免 过 载 的 情况 ,同时 保 
持 低 的 等 待 时 间 。 设 计 者 必须 在 负荷 平衡 与 等 待 时 间 之 问 进行 析 中 ,因为 它们 是 两 个 冲突 的 
目标 [63]。 注 意 ,数据 条 形 化 下 同 于 文件 复制 (一 种 昂 钼 的 提高 在 吐 量 的 方法 ) ,数据 条 形 化 技 
术 只 允许 在 磁盘 上 存储 一 个 视频 文件 的 副本 ,而 文件 复制 允许 在 磁盘 上 存储 一 个 视频 文件 的 
多 个 副本 ， 



















































































磁盘 控制 器 
文件 人， 块 1 文件 A4， 岂 2 文件 A， 块 3 文件 B， 块 1 文件 B， 块 2 
XA. SRA 文件 A， 映 5 文件 A， 块 6 文件 B， 块 3 文件 B， 块 4 
磁盘 | 磁盘 2 磁盘 3 waht as 


图 15.8 看 多 个 磁盘 上 的 数据 条 形 化 和 并 行 访 问 
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第 三 级 和 分 层 存储 :一 个 提高 容量 的 方法 “引信 多 个 磁盘 可 以 提高 存储 容量 ,如 图 15.9 所 示 。 














然而 ,如 果 大 生 的 磁盘 用 于 存储 ,那么 对 于 大 的 档案 文件 (例如 具有 4 万 亿 字 节 的 存储 要 求 ) 价 格 是 
过 高 的 。 为 了 保持 较 低 的 存储 成 本 ,需要 加 入 第 三 级 存储 (例如 自动 磁带 库 或 CD-ROM 光盘 机 )。 
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图 15.9 基于 磁盘 的 视频 存储 
为 降低 整体 成 本 ,通常 采用 分 层 存 储 结构 ,如 图 15.10 所 示 。 在 分 层 存 储 结构 下 ,只 有 总 














存储 量 的 一 小 部 分 保存 在 磁盘 上 ,而 其 余 的 主要 部 分 存储 在 第 三 级 磁带 系统 。 具 体 地 说 ,频繁 
请 求 的 视频 文件 存储 在 磁盘 上 以 便 快 速 访问 ,其 余 的 存储 在 自动 磁带 库 上 。 
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图 15.10 SARM 


为 了 开展 大 规模 的 流 服务 ,必须 使 用 存储 区 域 网 (SAN) 结 构 , 如 图 15.11 所 示 [17,29]。 


SAN 能 在 存储 设备 与 主机 之 间 提 供 高 速 数 据 管道 ,该 主机 比 传统 主机 配属 的 SCSI( 小 型 计算 机 
ASHEN) RAR AS NR É SAN 中 的 连接 ,可 以 是 通过 光纤 通道 仲裁 环 路 (FC-AL) 在 
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存储 设备 和 各 个 主机 之 间 建 立 的 直接 链接 ;或 者 它们 可 以 通过 光纤 通道 交换 技术 形成 一 


个 短 阵 。 通 过 这 些 高 速 的 连接 ,SAN 能 够 在 异类 的 存储 设备 (例如 磁盘 阵列 . 们 带 库 和 光盘 存 
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储 阵列 ) 以 及 多 个 服务 器 和 人 存储 器 客户 之 间 提 供 多 对 多 的 联系 。 


客户 | LBP] | 客户 
客户 . 客户 
LAN/WAN 


as | | am im | | 视频 
服务 器 | | 服务 器 | | 服务 器 | | 服务 器 


贸 旧 … 自 上身 存储 区 域 网 ja 8-88 
Sica 


T h% 




























































































图 15.11 一 种 基 」 SAN 的 大 规模 配置 的 服务 器 和 存储 器 结构 


容错 性 ”为 了 保证 在 磁盘 出 现 错误 的 情况 下 不 中 断 服务 ,服务 器 必须 能 重建 丢失 的 信息 。 
这 可 用 宛 余 信息 实现 。 元 余 信息 可 以 是 由 类 似 FEC 的 纠 错 码 生成 的 奇偶 校 验 数据 ,也 可 以 是 
人 存储 在 分 离 的 嵌 盘 上 的 备份 数据 。 有 两 种 容 销 技术 : 纠 错 缩 码 ( 即 奇偶 校 验 编码 )[4,53,72] 和 
镜像 存储 [48]。 奇 偶 校 验 数据 增加 很 少 的 存储 器 开销 ,但 它们 需要 同步 读 取 和 附加 的 处 理 时 
章 以 解码 下 失 的 信息 。 相 反 ,镜像 存储 不 需要 同步 读 取 和 附加 的 处 理 时 间 以 解码 丢失 的 信息 ， 
这 样 就 大 大 简化 了 视频 服务 器 的 设计 和 实现 。 然 而 ,与 无 容错 的 情形 相 比 ,镜像 存储 至 少 造成 
两 倍 的 存储 空间 。 结 果 是 ,需要 在 可 靠 性 和 复杂 性 (成 本 ) 之 间 做 出 折 中 。 最 近 的 研究 [23 ] 表 
明 , 对 十 相间 程度 的 可 靠 性 ,从 每 一 个 数据 流 的 成 本 和 购 盘 错误 后 重新 开始 的 等 待 时 间 来 看 ， 
基于 镜像 存储 的 方案 总 是 竹 过 基于 奇偶 校 验 的 方案 。 

总 之 ,我 们 已 经 介绍 了 流 服务 器 设计 中 的 各 种 问题 ,并 给 出 了 高 效 的 、 可 分 级 的 和 可 靠 的 
存储 和 污 取 多 媒体 文件 的 重要 技术 。 下 面 , 我 们 讨论 流 媒 体 的 同步 机 制 


15.6 媒体 同步 
































多 媒体 应 川 与 传统 的 数据 应 用 相 区 别 的 一 个 主要 特征 是 必须 以 同步 的 方式 演播 名 种 媒体 
流 的 集成 。 例 如 ,在 远程 教育 中 ,幻灯 片 的 显示 应 该 与 解说 音频 流 同步 ( 见 疼 15.12)。 否 则 ， 
当前 旺 责 在 屏幕 上 的 幻灯 片 就 会 与 学 生 们 听 到 的 讲解 相 脱节 。 通 过 媒体 同步 ,接收 端 能 够 以 
媒体 原始 采集 的 形式 演播 它们 。 











约 灯 片 1 幻灯 片 2 KTHS 约 灯 片 4 
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图 15.12 幻灯 片 与 解说 音节 流 之 问 的 同步 
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别 是 流 内 . 流 间 和 对 象 间 同步 。 这 三 级 对 应 于 如 下 多 媒体 数据 的 三 个 语义 层 [66]; 


1. 流 内 同步 
的 单元 是 
时 可 接受 


:连续 媒体 或 与 时 间 有 关 的 数据 (如 音频 和 视频 ) 的 最 低层 是 媒体 层 。 媒 体 层 
逻辑 数据 单元 (LDD) ,如 视频 /音频 帧 ,它们 都 有 严格 的 时 间 限 制 以 保证 播放 
的 用 户 接收 效果 。 这 - 层 的 同步 是 指 流 内 同步 , 它 维持 LDU 的 连贯 性 。 如 果 





没有 流 内 














和 静止 图 








同步 ,数据 流 的 演播 就 会 被 暂停 或 间 际 所 打 渐 。 

时 间 有 关 的 数据 的 第 二 层 是 流 层 。 流 层 的 单元 是 整个 流 。 这 一 层 的 同步 
步 , 它 维持 不 同 连 续 媒体 之 癌 的 时 间 关 系 。 如 果 没 有 流 间 同步 , 流 间 的 偏 移 
可 容忍 的 ,例如 ,如 果 用 户 发 现 说 话 考 嘴 层 的 运动 与 播 出 的 音频 不 一 致 ,他 们 
不 方便 。 

步 : 多 媒体 文件 的 最 高 层 是 对 象 层 , 它 集成 了 流 和 与 时 间 无 关 的 数据 ,如 文本 
像 。 这 一 层 的 同步 指 的 是 对 象 问 同步 。 对 象 问 同步 的 目的 是 , 若 与 时 间 有 关 
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的 多 媒体 对 象 到 达 了 其 些 预定 的 演播 点 , 则 在 一 个 可 允许 的 时 间 间 隔 内 开始 或 停止 与 


时 间 无 关 
的 而 同时 











数据 的 显示 。 例 如 播放 纪 灯 片 时 , 若 没有 对 象 间 同 步 ,如 果 声 音 是 一 个 幻灯 片 
播放 的 是 另 一 个 幻灯 片 ,那么 观众 就 会 感到 很 烦恼 。 


媒体 流 在 从 服务 器 传输 到 客户 后 可 能 失去 同步 。 如 图 15.1 所 示 ,在 把 数据 从 存储 器 传输 


到 用 户 的 路 径 上 
络 把 数据 传输 到 
介 许 这 些 系统 运 
同 的 形式 对 数据 
Bh). 特别 地 ,由 
FP FA EIS ERE 





有 许多 环节 。 具 体 地 说 ,服务 器 从 存储 设备 读 取 数据 并 把 数据 发 送 到 网 络 ; 网 
客户 端 ;客户 端 从 自己 的 网 络 接口 读 出 数据 并 把 它 送 给 用 户 ; 操 作 系统 和 协议 
行 和 工作 。 传 输 路 径 上 的 每 一 个 这 样 的 环节 执行 一 个 特定 的 任务 ,并 且 以 不 
造成 影响 。 它 们 都 必然 以 可 预测 或 不 可 预测 的 方式 引 人 延 述 或 延迟 变化 ( 拌 
网 络 引信 的 延边 一 般 是 不 可 顶 测 的 ,这 是 由 因特网 最 尽力 的 特性 所 决定 的 。 
迟 塞 化 会 破坏 流 内 、 流 间 和 对象 闻 的 同步 。 因 此 ,为 了 保证 在 客户 端正 确 地 提 














供 多 媒体 演播 ,需要 媒体 同步 机 制 。 


任何 媒体 同 
可 以 自动 或 手工 
在 演播 是 由 独立 





并 用 定义 幻灯 必 : 

用 于 没 定 时 
一 个 连续 媒体 广 
便 在 流 的 内 部 及 
行 演播 。 

除了 设 定时 
据 的 存储 方式 必 : 


步 机 制 的 实质 部 分 是 对 媒体 内 部 和 媒体 之 间 时 间 关 系 的 规定 。 这 种 时 间 关系 
设 定 。 在 音频 和 视频 录制 及 回放 场合 ,时 间 关系 是 由 录制 设备 自动 设 定 的 。 
采集 的 或 其 他 方法 生成 的 媒体 组 成 的 场合 ,时 间 关 系 必 须 手 工 疫 定 (用 人 工 干 

















预 )。 可 以 用 纠 灯 片 的 设计 来 说 明和 手工 设 定 的 过 程 : 没 计 者 选取 合适 的 幻灯 片 ,创建 音频 对 象 ， 


须 播放 的 音频 流 的 段 ( 见 图 15.12) 。 

间 关系 的 方法 包括 基于 时 间 间隔 、 基 于 轴 、 基 于 控制 流 和 基于 事件 的 设 定 [7]。 
证 采用 的 方法 是 基于 轴 的 设 定 ,或 时 间 心 :在 信 源 端 ,一 个 流 被 打上 时 间 答 ,以 
相对 于 其 他 的 流 建立 时 间 信 息 关系 ;在 信 宿 端 ,应 用 系统 根据 流 的 时 间 关 系 进 

















间 关 系 外 ,还 希望 传输 路 径 上 的 每 个 环节 都 支持 同步 。 例 如 ,服务 器 对 大 量 数 
须 能 快速 和 高 效 地 读 出 ,以 减 小 延迟 ;网 络 要 提供 足够 的 带宽 , 并 且 网 络 所 引 














人 的 延迟 和 抖动 对 于 多 媒体 应 用 是 可 容忍 的 ;操作 系统 和 应 用 系统 必须 支持 实时 数据 处 理 (如 
读 取 .再 同 步 各 显示 )。 然 而 ,在 日 前 的 因特网 上 ,还 不 具有 网 络 的 实时 支持 ,因此 大 部 分 同步 


机 制 要 基于 终端 




















系统 。 这 些 同步 机 制 可 以 是 预防 机 制 或 校正 机 制 [36]。 














© 预防 机 制 的 作用 是 在 数据 从 服务 器 到 用 户 传输 时 使 同步 差错 最 小 化 。 换 句 话说 ,预防 
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机 制 试图 使 等 待 时 间 和 抖动 最 小 化 。 这 些 机 制 包括 磁盘 凑 取 调度 算法 ,网络 传输 协 议 、 
操作 系统 和 同步 调度 器 。 矿 般 凑 取 调 度 是 对 从 存储 设备 读 取 的 数据 进行 组 织 和 整理 的 
过 程 。 网 络 传输 协议 为 数据 在 因特网 上 传输 期 间 提供 保持 同步 的 方法 。 操 作 系统 通过 
EDF 或 单调 率 调度 实现 定时 约束 的 精确 控制 、 问 步调 度 器 可 以 对 一 个 演播 使 用 同步 设 
定 , 创 建 一 个 服务 器 把 媒体 流传 送 到 客户 的 时 间 表 {传送 时 间 训 ) 以 及 客户 应 用 系统 把 
这 些 媒 体 流向 用 户 演播 的 时 间 去 ( 演 揪 时 间 表 )。 调 度 器 可 以 是 集中 的 (全 部 位 于 客户 
端 ), 也 可 以 尾 分 布 式 的 (传送 调度 幼 能 由 服务 器 和 客户 分 担 )。 
校正 机 制 的 设计 是 在 出 现 闻 步 差错 时 恢复 同步 。 由 于 因特网 引入 的 随机 延迟 , 亲 步 差 
错 是 涉 可 避免 的 。 随 机 延迟 玻 坏 媒体 流 的 连续 性 , 亦 数 据 传输 期 间 造 成 间 斯 和 抖动 。 
因此 . 当 发 生 问 步 益 错 时 ,在 接收 端 需要 一 定 的 补偿 措施 ( 即 校正 机 制 )。 
校正 机 制 的 一 个 例子 是 流 间 步 协议 (SSP){25]。 在 SSP 中 ,“ 有 意 延 迟 " 的 概念 被 各 种 
流 所 使 用 , 卓 的 是 调节 它们 的 演播 时 间 ,抵消 网 络 延迟 的 变化 。SSP 的 工作 过 程 如 下 所 
述 。 在 客户 端 ,控制 和 监视 数据 连接 的 客户 端 单元 将 数据 的 实际 到 达 时 间 与 演播 时 间 
误 上 的 预报 时 间 进 行 比较 ,并 把 任何 差异 通知 给 调度 器 ,调度 器 对 这 些 莽 异 进行 补偿 ， 
对 比 其 他 数据 "提前 "到 达 的 数据 进行 延迟 显示 ,使 落后 的 数据 * 志 上 "来 。 
总 之 ,媒体 同步 是 媒体 流 服务 设计 中 的 一 个 关键 问题 。 在 同步 领域 人 们 已 经 进行 了 大 量 
的 研究 。 作 为 这 一 领域 的 叙述 ,我 们 介绍 了 同步 的 概念 .要求 和 方法 。 要 获得 媒体 同步 方面 更 
多 的 信息 ,请 查阅 参考 文献 [7,66]。 








15.7 流 视频 协议 


协议 是 为 了 在 客户 机 和 流 服务 器 之 间 进 行道 信 而 设计 和 标准 化 的 。 根 据 它 们 的 功能 ,与 
因特网 上 的 流 视频 直接 相关 的 协议 可 以 分 为 二 类; 
1. 网 络 层 协议 :网 络 层 协 议 提供 了 基本 的 网 络 服务 支持 ,如 网 络 寻 址 。 因 特 网 协议 (1P) 就 
是 用 于 因特网 视频 流 的 网 络 层 协议 。 
2. 传输 协议 :传输 协议 为 流 应 用 系统 提供 端 对 端的 网 络 传输 功能 。 这 些 协 议 包括 UDP, 
TCP, RTP 和 RTCP, UDP 和 TCP 是 低层 传输 协议 ,而 RTP 和 RTCP[59] 是 册 层 传输 协议 ， 
它们 是 在 UDP/TCP 之 上 实现 的 ( 见 图 15,13)。 
3. 话 路 控制 协议 : 话 路 控制 协议 定义 消息 利 程序 ,以 控制 多 媒体 数据 在 已 建立 的 通话 期 
闻 传 送 。RTSP[61] 就 是 这 样 一 种 话 路 控制 协议 。 
为 了 说 明 这 三 种 类 型 的 协议 之 间 的 关系 ,我 们 在 图 15.13 中 醒 出 了 媒体 流 的 协议 栈 。 如 赂 
所 未 ,在 发 信 方 , 庄 缩 的 视频 和 音频 数据 被 读 出 ,并 在 RIP/RTCP/RISP 层 上 打包 ,以 提供 定时 和 同 
步 信息 以 及 包 的 序列 她 。 然 后 把 这 些 打包 的 RTP 流 送 到 UDP/TCP 层 和 卫 层 。 得 到 的 全 包 在 因 
特 网 上 传输 。 在 收 信 方 ,媒体 流 在 演播 前 按 相反 的 方式 处 理 。 这 是 数据 面 的 情况 。 对 于 控制 面 ， 
RTCP 包 和 RTSP 包 在 UDP/TCP 层 上 复 用 ,并 HH 被 送 到 人 P 层 ,以 便 通 过 因特网 传输 。 
这 一 节 的 其 余部 分 安排 如 下 :在 15.7.1 节 讨论 流 媒 体 的 传输 协议 ;15.7.2 节 介绍 话 路 控 
‘iil PIL, BY RTSP。 
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图 15.13 媒体 流 的 协议 栈 


15.7.1 传输 协议 


媒体 流 的 传输 协议 包括 UDP, TCP, RTP 和 RTCP 协议 。UDP 和 TCP 提供 基本 的 传输 功能 ， 
而 RTP 和 RTCP 则 运行 在 UDPATCP 之 上 。 

UDP 和 TCP 协议 支持 的 功能 包括 复 用 ,差错 控制 和 流量 控制 。 这 些 功 能 可 以 简 咯 地 描述 
如 下 。UDP 和 TOP 能 够 对 来 自 不 同 应 用 程序 的 数据 流 进行 复 用 ,这 些 应 用 程序 是 运行 在 具有 
相同 P 地 址 的 相同 计算 机 上 的 。 为 了 差错 控制 的 日 的 ,TCP 和 大 多 数 UDP 实现 是 利用 校 验 和 
来 检测 误 码 。 如 果 在 接收 的 包 中 检测 到 有 一 个 以 上 的 误 码 ,TCPAUDP 尽 就 委 掉 这 个 包 ,这 样 上 
一 层 (例如 RIP) 将 不 会 收 到 这 个 损坏 的 包 。 另 一 方面 ,与 UDP 不同 ,TCP ARERR ERN 
包 , 因 此 ,TCP 提供 可 靠 的 传输 ,而 UDP 则 不 是 。TCP 利用 流量 控制 ,根据 网 络 的 拥塞 状况 调节 
传输 码 率 。 这 是 TCP 另 一 个 区 出 于 UDP 的 特性 。 
由 于 TCP 重 传 所 引入 的 延迟 对 于 具有 严格 延迟 要 求 的 流 应 用 来 说 是 不 可 接受 的 ,因此 一 
般 用 UDP 作为 视频 流传 输 协议 。 另 外 ,由 于 UDP 木 能 保证 包 的 传输 ,所 以 接收 端 必 须 依 靠 上 
一 层 协议 ( 即 RIP) 来 检测 包 的 丢失 。 

RTP 是 一 个 因特网 标准 协议 ,用 于 提供 端 对 端的 传输 功能 , 以 便 支 持 实时 应 用 [59]。 
RTCP 是 RTP 的 间 件 协议 。 设 计 RTCP 是 为 了 向 RTP 话 路 的 参与 者 提供 Qos 反馈 。 换 句 话说 ， 
RIP 是 一 个 数据 传输 协议 ,而 RTCP 是 一 个 控制 协议 。 

RTP 并 不 保证 QoS 或 可 靠 性 传输 ,而 是 提供 以 下 支持 媒体 流 的 功能 : 


© TIA RE: RTP 提供 时 间 标 记 , 用 于 不 同 媒体 流 之 间 的 同步 。 注 意 , RTP 本 身 并 不 负责 同 
步 ,同步 必须 由 应 用 系统 实现 。 

e 序列 编号 :由 于 到 达 接 收 端 的 数据 包 可 能 是 不 按 次 序 的 (UDP 不 按 次 序 传送 数据 包 )， 
RIP 用 序列 编号 对 接收 吧 的 数据 包 进 行 正 确 的 排序 。 序 列 号 还 可 以 用 于 丢 包 检测 。 

日 有 效 载荷 类 型 识别 :包含 在 RTP 包 中 的 有 效 载荷 类 型 由 一 个 称 为 有 效 载 荷 类 型 识别 符 
的 RIP 包头 域 来 指 示 。 接 收 端 基于 有 效 载荷 类 型 识别 符 解释 包 的 内 容 。 某 些 常用 的 有 
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效 载 荷 类 型 如 MPEG-1/2 视频 和 音频 已 经 指定 了 有 效 载荷 类 型 号 !160]。 对 其 他 的 有 效 
载荷 ,可 以 由 活路 控制 协议 进行 指定 。 

© 信 源 识别 :每 一 个 FIP 包 的 信 源 由 一 个 称 为 同步 信 源 识别 符 (SSRC) 的 RTP 包头 域 来 指 
示 。SSRC 为 接收 端 提供 了 一 种 区 分 不 同 信 源 的 方法 。 


RTCP 是 与 RTP 肉 同 工作 的 控制 协议 [59]。 在 RTP 话 路 中 ,和 参与 者 定期 发 送 RICP 包 ， 
过关 于 数据 传输 质量 和 成 员 数 信息 的 反馈 ，RTCP 提供 的 服务 如 下 : 


© QoS{ QoS) Ei: UE RTCP AE BNA. RICE 为 应 用 系统 提供 关于 数据 发 送 质 量 的 反 
Bi. 这 些 控制 信息 对 发 信 方 , 收 信 方 利 第 三 方 监控 者 是 有 用 的 。 根 据 收 信 方 报告 的 反 
锁 , 发 信 方 可 以 调节 发 送 速 率 ( 见 15.3.1 节 )。 收 信 方 可 以 确定 拥塞 是 本 地 的 .区 域 性 
的 还 是 全 局 性 的 。 网 络 管理 者 可 以 为 组 播 分 配 评估 网 络 的 性 能 。 

利用 发 信 方 和 收 信 方 的 报告 ,RTCP 分 别 在 信 源 和 信 宿 提供 QoS 反馈 。 这 些 报告 可 
以 含有 关于 接收 质量 的 信息 ,如 (1) 自 从 上 一 次 报告 后 ,RTP 丢 包 的 百分率 , (2) 自从 接 
收 开始 以 来 累计 的 丢 包 数 ,(3) 包 到 达 时 间 的 持 动 ,(4) 自 从 接收 到 发 信 方 最 近 的 报告 以 
来 的 延迟 

o 参与 者 识别 :信和 源 可 以 中 RTP 包头 的 SSRC 域 来 识别 . 但 是 SSRC 识别 符 对 于 用 户 并 不 
方便 .为 补救 这 .问题 , RTCP 提供 了 :个 人 类 友好 的 机 制 用 于 信 源 的 识别 。 上 基体 地 
说 ,RTCP SDES( 信 源 描述 ) 包 中 含有 称 为 规范 名 的 文本 信息 ,作为 话 路 参与 者 的 全 局 惟 
一 的 识别 符 。 规 范 名 包含 用 户 的 姓 各 .电话 号 码 , 电 了 邮箱 地 址 和 其 他 信息 . 

o 控制 包 定 标 : 为 了 给 发 送 到 若 于 参与 者 的 RTCP 控制 包 定 标 ,所 设计 的 控制 机 制 如 下 。 
控制 机 制 保持 所 有 有 的 控制 包 占 话 路 总 带宽 的 5% 。 在 控制 包 中 ,25% 分 配给 发 信 方 报 
告 ,75% 分 配给 收 信 方 报告 。 为 了 防止 控制 包 缺 乏 , 收 信 方 或 发 信 方 至 少 每 隔 5 秒 发 送 
一 个 控制 包 。 

© 媒体 间 间 步 :RTCP 发 信 方 报告 含有 实时 指示 和 相应 的 RTP 时 间 惟 。 可 有 几 于 :媒体 问 的 同 
步 ,如 视频 中 的 嘴唇 同步 ， 

人 最 少 话 路 控制 信息 :这 项 可 选 功 能 用 于 传送 话 路 信息 ,如 参与 者 的 名 字 . 


# 





























15.7.2 话 路 控制 协议 :RTSP 


RTSP 是 因特网 上 流 媒 体 的 话 路 控制 协议 [61 ]。RTSP 的 一 个 主要 功能 起 支持 类 似 VOR 的 
控制 操作 ,如 停止 .暂停 /重新 着 始 , 快 进 和 快 退 。 此 外 , RTSP 还 可 以 握 供 选择 传输 通道 (例如 ， 
UDP SLE UDP 或 TCP) 的 方法 以 及 基于 RTP 的 传输 机 制 。RTSP 径 可 用 于 组 播 , 也 可 用 于 
单 播 。 

RISP 的 另 一 个 主要 功能 是 建立 和 榨 制 在 媒体 服务 器 和 客户 机 之 问 的 连续 的 音频 /视频 媒 
体 流 。 其 体 地 说 ,RTSP 提供 如 下 操作 : 

媒体 检索 : 客 广 机 可 以 请 六 一 个 演播 说 明 ,并 要 求 服务 器 建立 -个 话 路 以 传送 所 需 的 媒 

体 数 据 。 
邀请 媒体 服务 器 参加 会 议 :可 以 遵 请 媒体 服务 器 参加 -个 会 议 ,播放 媒体 或 录制 图 像 。 

向 现 有 话 路 加 入 媒体 :服务 器 和 客户 机 可 以 互相 通知 可 用 于 已 建立 的 话 路 的 任何 附加 媒体 。 
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RTSP 为 流 痛 频 和 视频 提供 的 服务 与 HTIP( 起 文本 传输 协议 ) 为 文本 和 图 形 所 提供 的 服务 相同 。 
它 被 设计 成 与 HTTP 具有 相似 的 语法 和 操作 ,从 而 大 多 数 HITP 的 扩展 机 制 都 可 加 入 到 RTSP。 

在 RTSP 中 ,每 -个 演示 和 媒体 流 都 被 一 个 RTSP URL{ 通 用 资源 定位 器 ?所 识别 。 全 面 的 
演示 说 明和 媒体 的 性 质 都 定义 在 一 个 演播 描述 文件 中 , 它 可 能 包括 编码 .语言 .RISP URL, B 
标 地 址 .端口 和 其 他 参数 。 客 产 可 能 通过 HTIP、 电 子 邮 件 或 其 他 方式 获得 演播 描述 文件 。 

总 之 ,RTISP 用 于 从 媒体 服务 器 启动 和 直接 传送 流 媒 体 数据 ;RIP 是 流 媒体 数据 的 - -个 传 
HA: RTCP 是 一 个 用 于 监视 RTP 包 传输 的 协议 ;UDP 和 TCP 是 用 于 RTP/RTCP/RTSP 包 的 低 
层 传输 协议 ;]P 为 在 因特网 上 传输 UDP/TCP 包 提 供 了 一 种 方法 。 这 些 协议 的 联合 提供 了 一 个 
完整 的 因特网 .| 的 流 服 务 。 

















15.8 无 线 IP 网 络 上 的 流 视频 


近来 ,宽带 无 线 网 络 的 出 现 激 起 了 在 无 线 中 网 络 上 进行 实时 视频 通信 的 极 大 兴趣 。 然 
而 ,在 无 线 网 络 上 实时 传输 高 质量 的 视频 是 一 个 富有 挑战 性 的 任务 。 这 主要 是 因为 如 下 几 个 
问题 ， 
o 带宽 波 动 :首先 ,无 线 遂 道 的 乔 吐 量 会 因为 多 径 误 落 . 间 频 道 十 扰 和 噪声 的 扰动 而 降低 。 
其 次 ,无 线 通 道 的 容量 会 随 着 基站 与 秘 动 主机 之 间距 离 的 变化 而 波动 。 第 三 , 当 移动 的 
终端 在 不 同 网 络 间 运 动 时 (例如 ,从 无 线 局 域 网 到 无 线 广域网 ) ,通道 带宽 会 发 生 剧 殉 的 
变化 (例如 从 每 秒 儿 兆 比特 到 每 秒 几 千 比 特 )。 最 后 , 当 发 生 基站 交接 时 ,基站 可 能 没有 
足够 的 无 线 电 资源 去 满足 新 加 入 的 移动 主机 的 需求 。 因 此 ,带宽 波动 对 十 无 线 网 络 上 
实时 视频 传输 是 一 个 严重 的 问题 。 
伴 高 误 码 率 : 与 有 线 连 接 相 比 ,无 线 通道 一 般 其 有 大 得 多 的 噪声 ,而 理 具有 小 尺度 (多 径 ) 
和 大 人 尺度 (阴影 ) 衰 落 ,使 得 误 码 率 (BER) 非 常 高 。 误 码 会 对 视频 演播 质量 造成 破坏 性 
的 影响 。 因 此 连 切 需要 视频 在 无 线 通 道上 的 健壮 传输 。 
© 异类 性 :在 组 播 情况 下 ,接收 端 可 能 具有 不 同 的 要 求 和 特性 ,如 等 待 时 间 、 视 觉 质量 .处 
理 能 力 .功率 限制 (无 线 和 有 线 》 和 带宽 限制 。 接 收 端 的 要 求 和 特性 的 异类 性 使 得 设计 
一 个 高 效 的 组 播 机 制 非常 困难 。 


已经 证 明 ,可 分 级 视频 能 适度 地 应 对 带宽 的 可 变性 (第 11 章 )[2,45]。 可 分 级 视频 编码 方 
案 产 后- 个 部 分 可 解码 的 庄 缩 比 特 流 。 与 解码 全 部 比特 流 相 比 ,压缩 比特 流 的 部 分 解码 会 产 
生 降 质 的 图 像 , 或 较 小 的 图 像 尺 十 ,或 较 小 的 帧 率 [18]。 与 此 相对 照 ,不可 分 级 视频 对 带宽 波 
动 更 为 敏感 ,因为 它 不 能 使 视频 的 表示 适应 带宽 的 变化 [45]。 因 此 ,可 分 级 视频 更 适合 用 在 无 
线 环境 下 应 付 无 线 通道 的 波动 。 而 且 , 可 分 级 的 视频 表示 对 于 组 播 情况 下 的 异类 性 问题 是 一 
个 很 好 的 解决 方案 [45]。 

近来 ,应 用 感知 的 自 适应 服务 已 经 被 证 明 能 够 有 效 减 轻 无 线 网 络 中 资源 可 用 性 的 波动 
[2]。 可 分 级 视频 表示 自然 地 适合 不 平等 差错 保护 , 它 可 以 有 效 抵抗 无 线 媒 体 所 造成 的 误 码 。 
这 就 促使 我 们 提出 自 适 应 帧 结构 这 支持 无 线 全 网 络 高 质量 的 视频 通信 . 

对 于 无 线 视频 传输 ,在 文献 中 已 经 提出 了 许多 自 适应 方法 和 服务 ,其 中 包括 “ 自 适 应 预 贸 
服务 框架 [38]、 基 于 QoS 界限 和 收益 的 自 适 应 服务 [441 .针对 端 对 端 Qos 设置 的 自 适 应 帧 结 
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构 [49] ,效用 公平 的 自 适应 服务 [61、 软 QoS 控制 架 框 [57] ,基于 - -个 自 适应 QoS 范例 的 电信 业 
务 模型 [331、 自 适应 QoS 管理 结构 [37] JER 印 网 络 上 可 分 级 视频 的 自 适应 框架 [84]。 
在 这 一 节 ,我 们 介绍 - ~ 个 用 了 于 将 来 允许 QoS 的 无 线 由 网 络 的 自 适应 框架 [ 哑 ]。 这 种 自 适 
应 框架 包括 :(1)H 分 级 视频 表示 ,每 级 都 有 自己 特定 的 QoS 要 求 ,(2) 网 络 感知 应 用 系统 ,可 
感知 网 络 的 状况 ,(3) 白 适应 服务 ,使 网 络 元 素 支持 可 分 级 视频 表示 的 QoS 需求 。 在 这 种 框架 
下 , 当 恩 线 通道 条 件 变 化 时 ,移动 终端 和 网 络 元 素 能 够 对 视频 流 分 级 ,并 以 可 接受 的 接收 质 鲜 
把 分 级 的 流传 送 到 接收 端 。 髓 适应 框架 具有 如 下 关键 特 入 ; 
1. 适度 的 质量 退化 : 与 个 可 分 级 视频 相 比 ,可 分 级 视频 可 以 使 它 的 视频 表示 适应 带宽 的 
变化 .并 且 网 络 可 以 根据 感知 的 视频 表示 进行 丢人 包 。 内 此 ,在 闫 峻 的 通道 条 件 下 ,接收 





质量 被 道 度 地 降 质 。 
2. 高 效率 : 当 存 在 剩余 带宽 (不 包 括 预 留 带宽 ) 时 ,剩余 带宽 会 被 有 效 利用 ,使 接收 质量 或 
收益 最大 化 ， 


3. 公平 性 :资源 可 以 按 效用 公平 :6] 或 最 大 最 小 公平 [44] 的 方式 共享 。 
本 章 的 其 余部 分 安排 如 下 :15.8.1 节 介绍 网 络 感知 的 应 用 系统 .15.8.2 节 介绍 无 线 P R 
络 上 传输 可 分 级 视频 的 自 适应 服务 


15.8,1 网 络 感知 应 用 系统 


网 络 感 知 应 用 系统 的 使 用 是 由 下 列 央 素 引 起 的 :(1) 当 通道 状况 很 差 时 , 误 码 率 会 非常 高， 
(2) 若 可 用 带宽 小 于 所 需 带宽 , 丢 包 是 不 可 避免 的 。 如 果 发 信 方 在 对 网 络 状况 -- 匹 所 知 的 情况 
下 试图 将 图 像 的 每 一 层 都 发 送出 去 .那么 所 有 的 层 都 会 以 相等 的 概 检 辣 到 破坏 ,这 样 图 像 岳 量 
就 会 很 其 。 为 了 解决 这 个 问题 , Wu, Hou 和 Zhang[ 84j 提 出 使 用 网 络 感知 的 应 用 系统 , 它 根据 
网 络 状况 以 明 短 的 方式 抢先 丢弃 增强 层 ， 

为 了 进行 说 明 ,我们 在 图 15.14 中 给 出 了 一 个 结构 , 它 包括 一 个 网 络 感知 的 移动 发 送 器 、 
一 个 应 用 感知 的 基站 和 一 个 接收 端 。 疼 示 的 结构 对 现场 的 和 存储 的 视频 都 是 适用 的 。 在 发 信 
方 ,首先 用 分 级 器 对 压缩 的 视频 比特 流 进行 滤波 ,从 中 远 取 所 要 传输 的 基 些 视频 层 。 然 后 使 所 







































































选择 的 视频 表示 通过 传输 协议 。 在 传输 到 基站 之 前 ,比特 流 必须 由 调制 解 调 器 进行 调制 。 基 

站 收 介 视 频 包 后 就 把 它们 通过 因特网 发 送 到 | | 的 地 。 
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图 15.14 一 个 从 移动 终端 到 有 线 终端 的 可 分 级 视频 传输 结构 
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注意 ,分 级 只 能 够 识别 视频 层 , 并 根据 它们 的 重要 程度 丢弃 某 些 层 。 身 弃 的 次 序 是 从 最 高 
增强 层 向 下 到 基本 层 。 分 级 器 只 执行 两 种 操作 : (1) 对 接收 的 视频 表示 向 下 分 级 , 即 坪 奔 增强 
层 ,(2) 把 接收 到 的 数据 都 发 送出 去 , 即 不 对 接收 的 视频 表示 分 级 。 

在 这 种 结构 下 ,基站 运用 一 个 带宽 管理 器 。 带 宽 管理 器 的 一 个 功能 是 通过 一 个 信 令 通道 来 
通知 发 信 方 关于 无 线 通道 的 可 用 带宽 [50]。 搂 收 到 这 个 信息 后 ,发 信 方 中 的 速率 控制 模块 把 带 
宽 参 数 传达 给 分 级 器 。 然 后 ,分 级 器 调节 视频 流 的 输出 码 率 ,使 传输 速率 小 于 或 等 于 可 用 带宽 。 

男 一 种 情况 是 基站 通知 发 信 方 关于 通道 质量 ( 即 BER) 的 信息 [3]。 接 收 到 这 个 信息 后 ,发 信 
方 中 的 速率 控制 模块 命令 分 级 器 执行 如 下 操作 (假定 视频 被 压缩 为 两 层 ): 如 朵 BER AFEA 
值 , 则 丢弃 增强 层 ,从 而 使 分 配给 增强 尽 的 带宽 可 用 于 前 向 纠 错 (FEC) ;否则 就 两 层 都 传输 。 

网 络 感知 的 应 用 系统 有 丙 个 优点 。 第 一 ,由 于 考虑 了 可 用 带宽 ,发 信 方 最 好 地 利用 了 网 络 
资源 , 它 有 选择 地 丢弃 增强 层 , 使 得 更 重要 的 层 被 破坏 的 可 能 性 最 小 化 ,从 而 提高 了 所 传送 视 
频 的 接收 质量 。 第 一 ,由 于 考虑 了 通道 的 出 错 状况 , 发 信 方 可 以 役 弃 增强 层 , 而 FEC 可 以 利用 
分 配给 增强 层 的 带宽 来 保护 基本 层 , 央 此 使 基本 层 被 正确 接收 的 概率 最 大 化 。 

注意 ,网 络 感知 的 应 用 系统 需要 在 物理 /链接 层 的 自 适应 技术 的 支持 。 这 些 自 适应 技术 包 
括 联合 使 用 可 变 扩展 ,编码 和 和 码 分 多 址 (CDMA) 系 统 中 的 编码 集合 , 自 适 应 编码 和 时 分 多 址 
《TDMA) 系 统 中 的 调制 ,通道 质量 估计 和 一 个 测量 反馈 通道 [50]。 另 外 ,反馈 时 间 间隔 一 般 限 
制 在 儿 上 到 几 让 毫 秦 的 数量 级 [50]。 


15.8.2 自 适 应 服务 


可 分 级 视频 编码 器 可 以 为 网 络 生成 多 个 层 或 多 个 子 流 。 自 适应 服务 根据 固定 网 或 无 线 网 
的 资源 可 用 性 条 件 提供 子 流 的 分 级 。 具 体 地 说 , 自 适应 服务 包括 如 下 功能 ; 

© 预 留 最 小 带宽 以 满足 基本 层 的 需要 ,因此 接收 质量 总 能 达到 可 接受 的 标准 。 

© 根据 可 用 带宽 和 公平 原则 调节 增强 层 , 换 句 话说 ,根据 资源 的 可 用 性 对 视频 流 进 行 分 级 。 

在 网 络 中 使 用 分 级 的 优点 包括 : 


。 对 网 络 异类 性 的 自 适应 性 。 例 如 , 当 具 有 较 大 带宽 的 上 游 链 接 流入 具有 较 小 带宽 的 下 
游 链 接 时 ,在 连接 点 处 使 用 分 级 器 有 助 于 改善 视频 质量 。 这 是 因为 分 级 器 能 有 选择 地 
ER FH ,而 不 是 随机 地 丢弃 包 。 

© 低 延 时 和 低 复杂 人 性。 可 分 级 视频 表示 使 得 分 级 器 的 操作 非常 简单 , 即 只 需 丢掉 增强 层 。 

因此 比 不 可 分 级 袖 频 处 理 要 快 。 

© 较 低 的 呼叫 闭塞 和 基站 交接 的 掉 线 概率 。 在 基站 处 可 分 级 视频 的 白 适应 性 可 以 转化 为 

较 低 的 呼叫 闭塞 和 基站 交接 的 掉 线 概率 。 

自 适应 服务 可 应 用 于 整个 网 络 ( 即 端 对 端 设 置 ), 或 只 用 于 基站 (好 局 部 设置 )。 由 于 自 适 
应 服务 的 局 部 设置 只 是 端 对 端 设 置 的 一 个 了 集 ,所 以 我 们 将 集中 讨论 端 对 端 设置 。 

端 对 端的 自 适应 服务 所 需要 的 部 件 包括 :(1) 服 务 合同 ,(2) 呼 叫 接纳 控制 和 资源 预 留 , (3) 
移动 组 播 机 制 ,(4) 子 流 分 级 ,(5) 子 流 调 度 ,(6) 链 搂 层 差错 控制 。 上面 对 这 些 部 件 进行 较 详 细 
的 描述 。 

服务 合同 ”一 个 应 用 系统 和 网 络 间 的 合同 可 以 包含 多 个 子 合同 ,每 个 子 合 间 对 应 于 一 个 或 多 
个 具有 相似 的 QS 保证 的 子 流 。 等 个 子 合同 必须 规定 所 对 应 子 流 的 传输 特性 和 Qo5 要 求 。 一 个 典 
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型 的 情况 是 ,用 于 基本 层 的 子 合同 规定 项 留 的 带宽 ,而 用 于 增强 层 的 子 合同 则 不 规定 任何 QuS 
保证 。 

在 视频 信 源 处 , 子 流 几 须根 据 应 用 系统 所 用 的 子 合同 生成 ,并 在 网 络 访问 点 被 整形 。 此 
外 ，-` 个 子 流 按 照 它 的 重要 性 被 赋予 一 个 优先 级 。 例 如 ,基本 层 被 赋予 最 高 优先 级 。 优 先 级 用 
于 路 由 选择 调度、 分 级 和 自 适应 网 络 的 差错 控制 部 件 。 

呼叫 接纳 控制 和 资源 预 留 ”在 端 对 端的 QoS 设置 中 ,呼叫 接纳 控制 (CAC) 和 资源 预 留 是 
BITE SAREE. CAC 的 功能 是 检测 接纳 -个 进 人 的 连接 号 否 会 降低 现 有 连接 的 服务 压 量 以 
Acid dt BET AL EAE BEI QoS 要 求 。 如 果 `… 个 连接 请 求 被 接受 ,就 必须 为 这 个 连接 预 留 出 类 
部 分 资源 。 首 先 ,为 了 在 -个 较 长 的 时 闻 尺 度 上 维持 指定 的 QoS, 网 络 必须 没 着 移动 连接 的 当 
前 路 径 预 留 资源 。 第 二 ,为 了 在 一 个 短 时 间 尺 度 上 无 缝 地 实现 QoS, 在 连接 到 相 邻 基站 的 传输 
中 必须 进行 一 些 备 份 卫 作 ,使 得 在 基站 发 生 交 接 事 件 时 可 以 避免 连接 断 线 。 

可 分 级 视频 表示 ( 即 子 流 ) 的 概念 为 CAC 和 资源 预 留 问 题 提供 了 一 个 非常 灵活 有 效 的 解 
j 案 。 首 先 ,因为 一 般 只 有 基本 层 于 流 要 求 QoS 保证 ,所 以 不 必 为 全 部 的 流 预 留 带 宽 , 这 
样 ,CAC 只 基于 基本 层 的 需求 ,并 只 为 基本 层 子 流 顶 留 资源 、 其 次 ,多 重 连接 的 增强 层 子 流 可 
以 共享 剩余 的 带宽 。 在 带宽 不 趾 和 /或 严重 差 销 的 条 件 下 ,增强 层 子 流 是 有 有 待 于 分 级 的 ,这 将 
在 后 续 段 落 中 讨论 。 

移动 组 播 机 制 ”CAC 利 资 源 预 符 能 够 提供 连接 层 的 QoS 保证 。 为 了 保证 在 包 级 光 锋 的 
QoS ,需要 使 用 移动 组 播 机 制 。 也 就 是 说 ,基本 层 流 在 沿 着 它 的 当前 路 径 传输 的 同时 ,还 要 组 播 
到 和 相 邻 的 基站 ,以便 QoS 在 小 的 时 间 尺 度 上 能 够 无 颖 地 实现 。 

为 了 支持 无 颖 的 QoS ,移动 路 出 协议 必须 是 主动 隆 的 和 预见 性 的 ,以 匹配 子 流 的 延迟 E 
失 和 拌 动 的 限制 。 恨 据 子 流 的 又 求 ,可 能 需要 建立 组 播 路 径 。 组 揪 路 徐 以 基站 为 终点 ,它们 是 
潜在 的 移动 终端 访问 候选 点 。 组 播 路 径 的 覆盖 范围 取决 于 移动 接收 端的 QoS 需求 和 移动 性 以 
长 基站 交接 特性 。 当 一 个 移动 站 从 一 个 基站 交接 到 另 一 个 基站 时 ,新 的 路 径 被 加 入 , 旧 的 路 径 
被 删除 [49]。 

子 流 分 级 “分 级 用 于 带宽 波动 期 间 和 差 的 通道 条 件 下 。 当 路 径 上 的 可 用 带宽 因 称 动 性 或 
BEATTY , 低 优先 级 的 子 流 被 路 径 上 的 分 级 器 所 丢弃 ,而 高 优先 级 的 子 流 被 传输 。 当 较 多 
的 带宽 变 为 可 用 时 , 较 低 优 先 级 的 子 流 就 可 以 通过 分 级 器 ,从 而 使 接收 端的 接收 质量 提高 。 
15. 14 示 出 了 一 个 从 移动 终端 向 有 线 终端 传送 可 分 级 视频 的 结构 。 图 15.15 画 出 了 一 个 从 有 
线 终端 向 移动 终端 传送 可 分 级 视频 的 结构 。 我 们 没有 示 出 从 一 个 移动 终端 向 另 - -个 移动 终端 
传送 可 分 级 视频 的 结构 ,因为 它 只 是 图 15.14 和 图 15.15 的 联合 _ 

分 级 决定 是 由 带宽 管理 器 做 出 的 。 当 没有 多 余 带 宽 (不 包括 预 留 带 宽 ) 时 ,带宽 管理 器 命 
分 级 器 到 掉 增 强 层 。 当 有 多 余 带 宽 时 ,多 余 带 党 可 按 效 用 公平 -6] 或 壤 大 最 小 公平 方式 1441 
Le 







































































> 





Ea 


y 








FRE ”于 流 调度 器 用 于 移动 终端 和 基站 。 它 的 功能 是 根据 包 的 子 流 Qos 技术 要 求 种 
优先 级 在 无 线 媒 体 上 调度 归 传 输 的 数据 包 。 

当 观 测 到 一 个 短 的 衰落 期 时 ,移动 终端 试图 区 分 子 流 传输 的 优先 次 序 ,从 而 实现 最 佳 的 
QoS. AMA ASUS EAB, DER RE Fio 为 了 确定 
-个 特定 的 子 流 中 任 一 包 的 传输 时 间 ( 或 它 在 传输 队列 中 的 位 置 ) ,调度 器 主要 考虑 两 个 因素 : 
该 子 流 与 其 他 子 流 比较 的 相对 重要 性 和 无 线 通道 条 件 。 
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图 15.15 一 个 从 有 线 终端 到 移动 终端 的 可 分 级 视频 传输 结构 


为 同时 实现 QoS( 例 如 有 限 延 迟 和 预 留 于 
[5]。 虽 然 现 有 的 包公 平 排队 算法 能 够 在 有 线 网 络 中 提供 有 限 延迟 和 公平 性 











用 于 无 线 网 络 。 关 键 的 困难 是 在 无 
致 一 个 通话 得 到 的 服务 




















PTE) 和 公平 性 ,必须 利用 包公 平 排队 一 类 的 算法 














,但 它们 不 能 直接 


线 网 络 中 ,通话 可 能 经 访 与 位 置 有 关 的 通道 差错 。 这 会 导 


预期 少 很 多 ,而 另 一 个 通话 得 到 的 


效 时 间 之 间 的 差异 ,使 它 难 于 同时 提供 延迟 保证 和 公平 性 。 


为 了 应 用 包公 平 排 
具备 的 - -系列 特性 , 称 为 通道 条 件 六 
(2) 对 有 差错 通话 的 长 期 公平 性 , (3 





RS 比 预期 更 多 。 这 导致 通话 有 


算法 ,Ng,Stoica 和 Zhang[51] 确 定 了 无 线 环 境 下 包公 平 排队 算法 应 该 
立 公平 (CIF);(1) 对 无 差 


错 道 话 的 延迟 和 吞吐 量 的 保证 ， 





) 对 无 差错 通话 的 短期 公平 性 ,(4) 对 所 接收 的 超过 服务 时 


闻 的 通话 适度 地 降 质 。 后 来 ,他 们 给 出 了 一 个 无 线 网 络 的 自 适 应 包公 平 排队 算法 的 理论 分 析 ， 





并 利用 这 个 理论 分 析 导 出 了 一 个 基 
队 (CIF-Q) , 它 实现 了 前 述 的 所 有 特 





于 起 始 时 间 的 公 于 
性 [511。 








排队 [28], 称 为 通道 条 件 独立 包公 平 排 





作为 一 个 例子 ,我 们 考虑 两 层 的 视频 。 基 本 层 子 合同 规定 了 预 留 带宽 ,而 增强 层 子 合同 没 
有 规定 任何 QoS 保证 ,这 其 一般 的 情况 。 一 个 子 流 调度 结构 如 曙 15.16 所 示 。 
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一 个 基站 处 的 子 流 调 度 结构 
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在 这 个 结构 上 ,缓冲 池 ( 即 图 15.16 中 的 数据 存储 器 ) 分 为 摧 部 分 :一 部 分 用 于 基本 层 子 
流 , 一 部 分 用 于 增强 层 子 流 ， 在 同 “个 用 于 基本 层 或 增强 层 的 缓冲 区 分 区 内 ,对 每 一 个 子 流 进 
行 总 流量 排队 。 而 且 ,在 同一 个 缓冲 区 分 区 内 的 子 流 此 学 该 分 区 的 缓冲 池 , 而 没有 路 分 区 的 组 
冲 区 共享 。 己 经 证 实 ,这 种 方法 在 通信 隔离 和 缓冲 区 共享 之 间 给 出 了 很 好 的 平衡 [84]。 
在 这 种 缓冲 结构 下 , Wa, Hou 和 Zhangl 84] 设 计 了 基于 总 流量 的 通信 管理 算法 ,以 实现 所 
需要 的 QoS 和 公平 性 ， 通 信 管理 的 第 一 部 分 是 CAC 和 带宽 分 配 。 视 频 连 接 由 CAC 根据 它们 
的 基本 层 QoS 要 求 接纳 ,进而 为 该 接纳 的 基本 层 子 流 做 出 预 留 带宽 。 对 于 接纳 的 增强 屋子 流 ， 
它们 的 带宽 将 通过 一 个 带宽 管理 器 动态 电 分 可 ,这 已 经 在 前 看 的 段 沙 中 说 明了 。 分 级 的 增强 
层 了 流 进入 共享 的 缓冲 区 ,并 由 一 个 先进 先 出 FIFO) 调 度 器 安排 时 序 。 通 信 管 理 的 第 二 部 分 
EURE. R 15.16 示 出 了 一 个 包 调度 的 分 层 结构 ,其 中 一 个 优先 权 链 接 调 度 器 被 -个 用 于 
基本 层 子 流 的 CIr-Q 调度 器 和 -个 用 于 增强 屋子 流 的 FIFO 调度 器 共享 . 服务 的 优先 权 首先 
交 给 CIFQ HAE AE PA ESCH FFO 调度 器 。 
链接 层 差错 控制 ”为 了 在 无 线 通道 上 提供 优质 的 视频 , 湖 要 链接 层 差错 控制 。 基 本 上 有 
两 种 差 甸 控 制 机 制 , 即 前 向 纠 错 (FEC) 和 和 白 动 重 传 请 求 (ARQ) FEC 的 缺点 是 不 能 自 适应 变 
化 的 道道 条 件 , 而 且 只 当 BER 1E T FEC 码 的 恢复 能 力 时 才 起 作用 。AROQ 的 缺点 足 延 迟 的 无 约 
束 性 ， 也 就 是 说 :在 最 坏 的 情况 下 ,为 恢复 误 码 ,一 个 数据 包 可 能 要 重 发 无 数 次 。 
为 了 解决 与 FFC 和 ARQ 有 关 的 问题 ,所 出 了 截断 TAEA ARQ 方案 [41,89] 和 延迟 约束 
汇合 ARQ[82]。 这 些 混合 的 ARQ 方案 结合 了 FEC 和 ARQ 的 优点 ;延迟 约束 和 自 适应 性 。 另 
一 方面 ,不 平等 其 错 保护 [30] 很 白 然 地 适合 于 可 分 级 视频 的 分 层 结构 。 具 体 地 涪 ,在 防止 传输 
差错 方面 ,基本 层 可 以 比 增强 层 受 到 更 好 的 保护 。 这 种 不 平等 差错 保护 形式 比 保护 所 有 的 子 
流 更 为 理想 ， 个 开放 的 问题 图 如 何 把 不 平等 差错 保护 与 混合 ARQ 方案 结合 起 来 185]。 
































15.9 小 结 


本 章 综述 了 因特网 视频 流 的 主要 方法 和 机 制 ,并 月 介绍 了 无 线 IP 网 络 视频 的 白 适 应 结 
构 。 本 章 的 唱 的 不 是 对 现 有 方法 和 杞 制 进行 详尽 考察 , 而 是 使 读者 对 --- 个 可 用 的 选择 范围 和 
有 关 的 性 能 、 功 能 和 复杂 性 之 间 的 折 中 考虑 有 所 了 解 。 
视频 压缩 (15.2 节 ) 


O 可 分 级 视频 编 但 是 在 因特网 和 无 线 IP 网 络 上 传输 视频 的 首选 模式 。 根 据 网 络 条 件 ,发 
送 端 ,接收 端 和 中 间 网 络 节点 决定 对 视频 的 哪 : 层 分 别 进行 发 送 ,接收 或 转发 。 

应 用 层 服务 质量 控制 {15.3 49) 

© 这 一 类 技术 限制 丢 包 和 带宽 变化 对 视频 质 昌 的 影响 。 在 发 送 端 .网 络 节点 和 接收 端的 
拥塞 控制 ,利用 码 率 整形 和 码 率 控制 机 制 使 视频 流 适 应 网 络 条 件 。 差 错 控制 .错误 隐 

藏 FEC 和 延迟 约束 重 发 使 传输 差错 的 视觉 效 应 最 小 化 。 
连续 媒体 发 布 服务 {15.4 节 )} 

这 一 节 装 论 了 采用 视频 内 符 感 类 的 网 络 滤波 器 进行 雪 帧 控制 。 当 用 相同 的 内 容 服务 多 
个 客户 时 ,为 有 效 地 利用 带宽 ,可 使 用 组 播 。 应 用 层 组 播 实现 了 分 离 的 组 播 网 络 的 连 
接 ， 内 容 复制 将 内 雁 缓 存在 网 络 的 儿 个 节点 上 。 然后 把 内 容 从 最 近 的 高 速 缓冲 存储 器 
传送 给 用 户 。 












































Ris 因特网 和 无 线 上 网 络 上 的 流 视频 423 





流 服务 器 (15.5 T) 
© 流 服务 器 通过 阅 络 把 内 容 传送 给 客户 .服务 器 在 定时 的 约束 下 处 理 媒体 ,以 便 保 证 接 
收 方 同步 不 同 的 媒体 ,并 防止 在 视频 运动 中 出 现 拌 动 之 类 的 人 为 失真 。 这 需要 对 服务 
器 的 三 个 主要 部 分 最 优化 :操作 系统 ,存储 系统 以 及 通过 - 套 协议 与 客户 相互 作用 的 通 
信 程序 。 
媒体 间 步 (15.6 节 } 
多 媒体 同步 能 够 使 客户 以 同步 的 方式 演播 音频 、 视 频 、 图 形 等 不 同 的 媒体 流 。 服 务 器 在 所 
发 送 的 每 个 包 上 加 上 一 个 时 间 蕉 。 接 收 方 利 用 这 些 时 间 惟 来 估计 网 络 拌 动 以 及 合适 的 
缓冲 区 容量 ,以 保证 同步 性 和 连续 的 媒体 播放 。 
流 视 频 协 议 (15.7 $) 
© 基本 的 传输 协议 TCF 和 UDP 在 传送 包 时 分 别 需 要 和 不 需要 向 发 信 方 发 送 应 答 。KIP 
支持 实时 应 用 系统 的 端 对 端 传输 , 所 提供 的 功能 有 时 间 戳 、 包 编号 和 有 效 载荷 识别 等 。 
RTCP 昆 相关 的 控制 协议 ,主要 向 服务 器 提供 QoS 反馈 。RTSL 控制 一 个 以 上 的 同步 媒 
体 流 的 通信 话 路 。 它 提供 的 功能 有 停止 .暂停 /重新 开始 、 快 进 和 快 退 等 。 
无 线 人 P 网 络 上 的 流 视频 (15.8 节 } 
© 由 于 高 的 带宽 波动 和 误 码 率 , 在 无 线 IP 网 络 上 的 流 视 频 需要 在 无 线 终端 发 送 器 和 无 线 
网 络 基站 中 的 网 络 感知 应 用 系统 。 该 系统 根据 当前 的 可 用 带宽 对 可 分 级 视频 比特 流 进 
行 整形 。 
我 们 要 强调 的 是 所 涉及 的 七 个 锁 域 是 流 视频 结构 的 基本 组 块 。 这 伴 一 个 结构 与 信 导 处 
BB 网络 技术 和 服务 器 技术 等 有 广泛 的 联系 。 关 此 ,对 流 视 频 整个 结构 的 透彻 理解 有 助 于 用 二 
流 视频 的 信号 处 理 技术 (例如 可 分 级 视频 斥 缩 ) 的 发 展 。 此 外 ,信号 处 理 和 网 络 技术 的 深信 知 
识 有 助 于 有 效 地 设计 和 使 用 应 用 层 Qos 控制 ,连续 媒体 发 布 服务 .协议 和 无 线 IP 网 络 上 的 视 
频 服务 。 而 且 , 这 种 结构 式 的 理解 对 设计 商 效 的 ,可 分 级 的 .可 容错 的 流 服 务 器 也 是 有 帮助 的 。 
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附录 A 空 时 梯度 的 确定 





为 了 实现 本 书 给 出 的 许多 最 优化 问题 所 需要 的 各 种 梯度 下 降 法 ,我们 必须 能 够 确定 视频 
信号 的 空间 和 时 间 梯 度 。 这 个 附录 给 出 几 种 用 差分 算 子 近 似 连续 梯度 运算 的 方法 、 


A.1 一 阶 和 二 阶梯 度 
近似 沿 特定 方向 的 一 阶梯 度 的 最 简单 方法 是 利用 该 方向 上 两 个 像素 值 之 差 , 由 此 得 到 ; 




















3 
aa Garo T ¥ Go yst) Wx Lyi) 
x Gann = yr yt) -WV xy 1,8) 
a 
elgg SPED Y yt- 
用 这 个 近似 ,我 们 可 以 进一步 导出 二 阶 空间 梯度 算 子 的 近似 : 
ee _ ay ay 
Ox) Neen Fx lusty OX Tne 
= stl) -2¥ (ry) +(x -1,y,:) 
ay _ av ay 
OY lio FH lera ax laga 





=W(x,y+1,0)- 20 (a,y,t) +¥ (x,y - 1,0) 
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=Y(x,yst+1)-2W(x,y,t)+¥(x,y,t-1) 


A2 索 贝尔 算 子 











上 一 节 给 出 的 数字 近似 对 视频 数据 中 的 噪声 很 敏感 。 而且, 有 些 算 子 是 不 对 称 的 。 在 
像 处 理 中 ,一 阶 空间 梯度 经 常用 索 贝尔 (Sobel) 算 子 近似 , 它 在 沿 梯度 方向 取 中 心 差分 之 前 , 沿 
切线 方向 进行 平滑 ,特别 地 : 
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Edy) 2 xtl,y - Le) 


注意 ,这 些 运 算 可 以 用 一 个 3x3 滤波 器 简单 地 实现 。 


A.3 高 斯 差分 滤波 器 


- 阶 (或 : 阶 ) 梯 度 的 一 个 更 其 有 可 声 健壮 性 的 实现 四 ,首先 使 原始 数据 通过 -个 高 斯 平 


消 滤 波 器 .然后 对 平滑 后 的 信号 应 用 一 阶 (或 - 
分 算 了 是 可 世 柳 的 ,这 个 运算 等 价 于 将 原始 信号 





阶 ) 养 分 算 子 。 由 于 平滑 算 子 ( 卷 积 算 子 ) Ge 


与 一 个 滤波 器 进行 卷 积 ,这 个 滤波 器 是 高 斯 函 





数 的 一 阶 { 或 二 阶 ) 梯 度 。 为 了 把 这 个 滤波 器 应 











于 数字 信号 ,上 述 连 续 域 的 滤波 器 必须 进行 


采样 和 截断 。 所 得 到 的 高 斯 “阶梯 度 ( 或 高 斯 的 差分 ) 称 为 DoG 滤波 器 ,而 高 斯 的 二 阶梯 度 或 


RERA TIKA LG 滤波 器 


Pelry) = epl- (a + yR) ERRIRE, MY 
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时 然 ,所 有 这 些 滤波 器 是 可 分 离 的 。 为 得 到 任何 一 个 这 种 函数 的 数字 近似 ,可 以 把 它 的 长 度 截 
HCA 2~ 3c ,并 对 彪 断 的 两 数 在 整数 采样 点 上 进行 采样 。 参 数 o 应 该 以 像素 为 单位 定义 ,而 且 





应 该 基于 数据 中 出 现 的 噪声 量 选择 。 通 常 的 近似 是 设置 。= 1 像素 ,在 20 戏 断 该 函数 。 得 到 


的 滤波 器 是 5x5 阶 滤波 器 ,如 下 所 示 : 
0.0366 
0.1642 
0.2707 
0.1642 
0.0366 0.0821 0 


0.0821 
0.3679 


0 
0 
[G.] = 0 
0 


- 0.0821 
— 0.3679 
— 0.6065 
- 0.3679 
— 0.0821 


~ 0.0366 
— 0.1642 
— 0.2707 
~ 0.1642 
~ 0,0366. 





0.0549 0 


0.2463 
0.4060 
0.2463 
0.0549 


Ga] = 


一 0.1353 
— 0.6065 
— 1.0000 
— 0.6065 
= 0.1353 


0,0549 
0.2463 
0.4060 
0.2463 
0.0549. 
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0.0733 

0. 1642 
IG, ] = 0 

— 0.1642 

= 0.0733 
[G,] = [G, J”; 


0.1642 0 -0.1642 - 0.0733 
0.3679 0 - 0.3679 — 0.1642 
0 0 0 0 
-0.3679 0 0.3679 0.1642 
- 0.1642 0 0.1642 0.0733 
[G] = [Ga] 
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附录 B 梯度 下 降 法 


本 附录 考察 一 些 用 于 最 小 化 日 标 函 数 的 基本 梯度 下 降 法 。 我 们 考虑 当 汤 数 是 维 多 谈 
量 的 - 般 情况 。 

令 DD 代表 目 慰 函数 ,其 中 x = Lay, 是 -- 个 KK 维 失 量 。 梯 度 下 | 降 法 是 迹 代 的 
方法 , 它 确定 达 钊 JOO 的 最 小 值 的 点 x 、 


B.1 一 阶梯 度 下 降 法 





令 加 代表 第 工 次 迭代 的 解 ，- 阶 梯度 下 降 法 正比 于 日 标 函数 的 一 阶梯 度 更 新 这 个 解 ， 
Bu. 





i 
x =- x gS a (B.1.1) 


— BYR EEE RRL ME CE SE As RCO Jax 代表 函数 J(x) 增 长 最 快 的 方向 ,从 击 — 0 Jax 就 是 
JE) 下 降 最 快 的 方向 。 

常数 a 称 为 步 长 。 它 必须 适当 地 选取 ,以 保证 迭代 过 程 收敛 于 期 望 的 最 小 点 x 。 如果 a 
太 大 , 解 会 在 x 附近 振荡 ; 而 如 果 a Ke) METAS HERA RE, BA, 如 果 函 数 
了 CS) 有 有 多 个 局 部 最 小 ,那么 收 俩 的 解 将 是 距离 初始 解 最 近 的 那个 局 部 最 小 。 因 此 ,选择 一 
个 适当 的 初始 解 是 非常 重要 的 。 为 了 得 到 全 局 最 小 ,我 们 也 可 以 从 几 个 叱 离 足 够 远 的 不 同 的 
初始 解 ,然后 从 每 个 初始 解 运行 这 个 迭代 方案 ,通过 比较 由 不 同 初始 解 得 到 的 所 有 局 部 最 小 处 
的 隆 数 值 , 取 其 中 具有 最 小 值 的 一 个 。 然 而 ,不 能 保证 它 一 定 是 爹 局 最 小 。 更 复杂 的 方法 是 模 
WAR X (simulated annealing) , 它 人 允许 连 代 过 程 帐 出 局 部 最 小 [ 1]。 


B.2 最 陡 下 降 法 


在 上 述 方法 中 , 步 长 « 设 为 一 个 小 的 常数 。 为 加 速 收 敏 ,我 们 也 可 以 在 每 一 次 新 的 选 代 
中 改变 ,使 J(x) 达 到 最 大 的 降低 。 这 是 可 能 的 ,因为 对 固定 的 x? 和 {3/3x) Loo, BAC 
JOE? ) 是 a 的 标量 函数 。 可 以 采用 数值 搜索 法 来 确定 每 一 次 迄 代 的 最 优 步 长 。 采 用 这 样 的 
可 变 步 长 的 一 阶梯 度 下 降 法 称 为 最 陡 下 降 法 。 与 固定 步 长 算法 相 比 ,这 种 方法 法 只 要 经 过 较 
少 的 送 代 就 能 收敛, 但 尼 每 一 次 选 代 将 需要 更 多 的 时 间 来 确定 最 优 步 长 。 


B.3 牛顿 法 


函数 达到 局 部 最 小 的 必要 条 件 是 它 在 该 点 的 梯度 为 零 。 给 定 上 一 次 迁 代 的 解 x ,此 处 
的 梯度 还 不 是 零 ,一 个 确定 更 新 的 方法 是 要 求 和 新 位 置 处 的 梯度 为 零 , 即 : 


2J =0 (B.3.1) 


OKT Lae 
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FF 述 梯 度 函 数 利用 泰勒 公式 展开 至 第 一 项 ,我 们 得 到 : 

















Slo + UHR” ylax = 0 (B.3.2) 
x 
其 中 
Ps PI Pd 
Daða Ix dx EE 
2 Zd ŽI Be 
[HG)] = 4 | a dan FETA 
ZJ ËI FJ 
Jards, Tagar Jada 


它 是 /x) 的 二 阶 导数 , 称 为 Hessian 年 阵 。 解 方程 (B.3.2) ,我 们 得 到 : 


Ax =- [HR] 下 an 


pon 


xD 8 - (A(x) I ed 


“SRR URANO EE, Be BRULEE ER. A a Ta LI 
SE RET ASE, HSER BRE Oe. RHC FS 
于 产生 噪声 和 数值 误差 。 

实际 上 ,更 经 常 采用 如 下 的 更 新 : 


xm = xD _ ofA) ]- EA a (B.3.3) 
其 中 , 步 长 a 是 小 于 1 的 常数 。 它 必须 适当 地 选取 ,以 达到 确保 收 仇 和 收敛 速度 之 间 的 折 中 。 


B.4 牛顿 -拉夫 和 森 算法 


E A RRR HP A, E: 
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JOO = 5 Dei l(x) (B.4.1) 
k 
我 们 有 : 
ges ax) (B.4.2) 
和 
a a T æ a 
TH] = aE => alge) + Fee = 2%)" (B.4.3) 














最 后 的 近似 昆 由 假设 二 阶 导数 的 项 远 小 于 一 阶 导 数 的 项 得 到 的 。 在 公式 (B.3.3) 中 采用 这 个 
近似 就 得 到 牛顿 -拉夫 森 算 法 。 由 于 实际 中 遇 到 的 几乎 所 有 误差 最 小 化 问题 前 用 误差 平方 利 
作为 目标 函数 ,所 以 牛 时 -拉夫 森 算 法 被 广泛 采用 。 
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附录 C ”缩写 词汇 表 


三 维 电 视 


先进 音频 编码 器 (MPEG-2 音频 编码 器 ) 

可 用 比特 率 (ATM 网 络 的 一 种 服务 类 型 

交流 ( 指 相应 于 非 零 频率 的 变换 系数 ) 
先进 的 编码 效率 ( -种 MPEG-4 视 频 编码 类 ) 
模拟 到 数字 

非 对 称 数 字 用 户 环 路 

应 用 层 成 帧 

自动 重 传 请 求 

角 射 线 变换 

先进 的 实时 简单 (一 种 MPEC-4 视频 编码 类 ) 
应 用 服务 供应 商 

动作 单元 (用 于 FACS) 

音 视频 

异步 传输 模式 

二 进 制 阿尔 法 块 (一 种 MPEG-4 形状 编码 单元 》 
身体 定义 参数 (用 于 MPEC-4) 
身体 动画 参数 (用 于 MPEG-4) 

误 码 率 

二 进 制 格式 场景 (MPEG-4 场景 建 模 语言 》 

宽带 ISDN 

块 匹配 算法 

比特 /像素 

比特 / 秒 

ITU-R 制订 的 一 种 数字 视频 格式 ,以 前 称 为 CCIR601 
呼叫 接纳 控制 

编码 块 模式 (为 MPEG-1/2/4 标准 中 的 每 一 宏 块 指定 的 ) 
恒定 比特 率 (在 ATM 网 络 中 的 一 种 服务 类 型 》 
HTS HE 

国际 电话 咨询 委员 会 

国际 无 线 电 咨询 委员 会 
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CCIR601 见 BT.601 
CCIT 国际 电报 咨 谢 委员 会 
CCITT 国际 电话 和 电报 咨询 委员 会 (更 名 为 [LU-T) 
CDMA 码 分 多 此 
CEIP 码 激动 线性 预测 (一 种 诸 音 编码 方法 ) 
CIE 国际 照明 委员 会 (彩色 专家 的 一 个 国际 组 织 ) 
CIF 普通 中 间 媒 体格 式 (ITUT 了 制订 的 一 种 数字 视频 格式 ) 
CIFQ 独立 于 信道 条 件 的 公平 排队 
CLR TCE KARTE ATM 网 络 中 ) 
CMY AAT . 品 . 黄 作 为 基色 的 彩色 坐标 
CMYK 用 青 . 品 、 黄 利 时 作为 基色 的 彩色 坐 慰 
codec 编码 器 和 解码 器 
cpd FRE TE 7K AE aE ACF E EAA ARA 
CPS 约束 参数 集 
CRT BHR MARS 
CSFT 连续 空间 傅 里 叶 变 换 
CSP 内 容 服 务 供应 商 
CSS GESE 
DAI 传送 应 用 接口 
DAVIC 数字 音 视频 委员 会 
DBMA PJ EERDER TEE 
DBS 直接 广播 卫 旦 
DC 直流 ( 指 相应 于 零 频 的 变换 系数 ) 
DCP 视差 补偿 预测 
DCT 离散 余 总 变换 
DFD 移 位 帧 差 
DIT HEURE EM 
DSF 高 散 空间 傅 里 叶 安 换 
DTV 数字 电视 
DMIF 传送 多 媒体 集成 框 保 
DMV 差分 运动 矢量 (MPEG-2 视频 中 定义 的 运动 校正 矢量 ) 
DPCM 差分 脉冲 编码 调制 
DSL. 数字 用 户 环 路 
DSP 数字 信和 号 处 理 器 
DV 位 差 失 量 
DVD 数字 视频 光盘 
DVTR 数字 视频 磁带 录像 机 
DWT 离散 小 波 变换 
EBMA 穷尽 搜索 块 匹配 算法 
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最 早 截止 时 间 优先 

增强 数据 率 的 GSM 进化 

Colomb 指数 (一 种 概率 分 布 ) 

块 结束 (用 于 编码 DCT 块 的 符号 ) 

差错 复原 滴 编 码 

要 入 零 树 小 波 ( 一 种 基于 小 波 的 编码 方法 ) 
柔性 的 二 维 

柔性 的 三 维 

面部 动作 编码 系统 

脸 动 画 参 数 (用 于 MPEC-4) 

光纤 通道 仲裁 坏 路 

光纤 分 配 数据 接口 

脸 定义 参数 (用 于 MPEG-4) 

前 向 纠 错 

有 限 元 法 

快速 傅 里 叶 变换 

细 间 隔 度 可 分 级 性 

先进 先 出 

帧 / 秒 、 帧 率 或 时 间 采 样 频率 的 单位 (也 表示 为 Hz) 
广义 高 斯 分 布 
高 斯 -马尔 可 夫 场 
蕊 组 (视频 编码 标准 中 的 一 个 术语 } 

图 像 组 (视频 编码 标准 中 的 一 个 术语 ) 

通用 包 无 线 电 业 务 

Golomb-Riee( 一 种 概率 分 布 ) 

全 球 移动 通信 系统 

分 组 扫描 调度 

视频 对 象 平面 组 (MPEC-4 中 的 一 个 术语 ) 

分 层 块 匹 配 算法 

高 清晰 度 电视 

分 层 的 特征 匹配 运动 估计 方法 

使 用 色调 ,饱和 度 和 强度 的 彩色 坐标 (又 称 为 HSV, 此 处 Y 代 骨 值 ) 
超 文本 传输 协议 

人 类 视觉 系统 

不 完全 的 三 维 

图 像 幅 型 比 

国际 电工 委员 会 

特 网 工程 任务 组 

独立 和 人 恒 等 分 布 
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TP 因特网 协议 
Isp 独立 段 解码 
ISDN SRA BS GE HIKEA ISDN) 
ISA 国家 标准 化 协会 国际 联盟 
ISO 国际 标准 化 组 织 
Isp 因 特 阅 服务 供应 商 
ITU 国际 电信 联盟 
TIU-R 国际 电信 联盟 无 线 电 部 
ITU-T 国际 电信 联盟 电信 部 
JPEG 联合 图 片 专 家 组 
KBASC 基于 知识 的 分 析 合成 编码 
kbps TER 
KLT Karhuner-Joeve 变换 
LAN 局 域 网 
LC 分 层 编 码 
KD 液晶 显示 器 
1DU 逻辑 数据 单 扎 
LMDS 本 地 多 点 分 配 业 务 
TMMSE 线性 最 小 均 方 误差 
Ipf 行 / 帧 
Ls} RUE BRE 
LTI 线性 时 不 变 
MAD 平均 绝对 差 
MAN 城 域 网 
MAP 最 大 后 验 
MB 宏 块 (ITU 和 MPEG 视频 编码 怀 准 中 的 编 但 单位 ) 
Mbps 兆 比 特 / 秒 
MC 模型 一 致 件 
MCI 运动 补偿 内 插 
MCP 运动 补偿 预测 
MCU 多 点 控制 单元 
MDC 多 描述 编码 
MDL 最 小 描述 长 度 (一 种 信 源 编码 方法 ) 
MDTC 多 撒 述 变换 编码 
ME 模型 失效 
MMDS 多 信道 多 点 分 配 业 务 
MMSE 最 小 均 方 误差 
MOS 平均 意见 分 
MPEG 运动 图 像 专家 组 
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视频 编码 标准 中 宏 块 的 量化 步 长 





最 大 平 湛 恢复 (一 种 错误 隐藏 方法 ) 

elfe k 

视频 编码 标准 中 宏 块 的 编码 模式 

最 大 传输 单元 (因特网 数据 传输 中 最 大 的 数据 包 尺寸 ) 
运动 矢量 

视频 编码 标准 中 差分 编码 的 运动 矢量 

多 级 零 树 精 编 码 (一 种 基于 小 波 的 编码 方法 ) 




















于 大 多 数 北美 国家 的 模拟 电视 制式 ,由 美国 国家 电视 系统 委员 会 制订 
基于 对 象 的 分 析 合成 编码 

重 

x 



































A mihi shat 
时 象 描述 子 ( 一 个 MPEG-4 实体 ) 





基于 对 象 的 时 间 可 分 级 性 
逐 行 倒 相 ,大 多 数 西欧 国家 采用 的 模拟 电视 制式 




















简单 的 老式 电话 系统 
WAY 

功率 谱 密度 

峰值 信 品 比 

公共 交换 电话 网 
ANAR 

正 交 幅度 调制 

四 分 之 一 普通 中 间 媒 体格 式 
服务 质量 

县 化 参数 (控制 量化 器 步 长 的 参数 ) 
刚性 的 三 维 

码 率 兼容 删除 卷 积 码 

率 失真 
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READ 相对 单元 地 址 指定 
RGB 用 红 BR EA Ee BA 
RISC 精简 指令 集 计算 机 
RPS 参考 图 像 选 择 
RS Reed-Solomen( 一 种 类 型 的 信道 纠 错 但 
RTCP 实时 控制 协议 
REP 实时 传输 纱 议 
RTT 往返 时 间 
RTSP 实时 流 协议 
RV BEILE bt 
RVC “A SBA A) S EKT 
SA-DCT 形状 自 适 应 DCT 
SA-DWT 形状 日 适应 DWT 
SA-7TE 形状 自 适应 ZTE 
SAN 存储 区 域 网 
SAP 话 路 通告 协议 
SCSI ART APLAR SUE | 
SbP 话 路 描述 协议 
SDTY 标准 清晰 度 电视 
SECAM 丹 序 彩色 与 存储 ,大 多 数 东欧 国家 采用 的 模拟 电视 制式 
SG 和 研究 组 (ITC 的 一 个 下 属 机 构 ) 
SIP 话 路 启动 协议 
SL 同步 层 
SMPTE 电影 与 电视 工程 是 协会 
SNR 信 噪 比 
SPIHT 分 层 树 集 分 割 (- -种 基于 小 波 的 编码 算法 } 
sQ 标量 量化 
SSFT 采样 空间 傅 里 时 变换 
SSP 流 同步 协议 
SSRC 同步 信 源 识别 符 
STC 系统 时 钟 
STF 截断 符号 的 特征 (用 于 HFM-ME 的 特征 ) 
SVD 奇异 值 分 解 
S-VHS 超级 VHS, VHS 的 加 强 版 
Te 变换 编码 
TCP 传输 控制 协议 
TCQ 格 形 编码 的 量化 
TDMA 时 分 多 十 
TET 薄膜 晶体 管 
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传输 流 

文本 到 语音 

TIS 接口 

电视 

未 指定 比特 率 (ATM 网 络 中 的 一 种 业务 类 型 ) 

用 户 数据 包 协议 

通用 资源 定位 器 

通用 移动 通信 系统 

可 变 比 特 率 (ATM 网 络 中 的 一 种 业务 类 型 ) 

视频 压缩 光盘 

视频 盒 式 磁带 录像 机 

模拟 视频 磁带 录像 格式 

可 变 长 编码 

可 变 长 解码 

视频 对 象 (MPEC-4 中 的 术语 ) 

视频 对 象 层 (MPEG-4 中 的 术语 ) 

视频 对 象 平面 (MPEC-4 中 的 术语 ) 

虚拟 现实 模 氢 语言 

矢量 量化 

RMA al 

视频 磁带 录像 机 

广域网 

工作 组 (TTU 的 一 个 下 属 机 构 ) 

用 于 大 多 数 数字 视频 格式 的 彩色 坐标 ,包含 一 个 亮度 (Y) 和 两 个 色差 信号 
(Cb 和 Cr) 分量 

用 于 NISC 制式 的 彩色 坐标 ,包含 一 个 亮度 (Y) 和 两 个 色 度 分 量 1 和 Q 
用 于 PAL 和 SECAM 制式 的 彩色 坐标 ,包含 亮度 (Y) 和 两 个 色 度 分 量 U 和 V 
零 树 炉 编码 (一 种 基于 小 波 的 编码 方法 》 
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第 1 章 

1.2: 对 于 照明 光 , 红 + BR + E = + R= 黄 。 

1.3: 对 于 颜料 , 红 + 绿 + 监 = 忆 , 红 + 绿 = 蓝 。 

1.4: 用 公式 (1.4.4) 和 (1.4.2) 计 算 。 
对 TiQ:(aj (1,0,0),(b) (0.587, - 0.274, ~0.523), (c) (0.886,0.321, -0.311), (d) 
(0.701, ~ 0.596, ~ 0.211). 
对 YUV:(a) (1,0,0), (b) (0.587, - 0.289, - 0.515) ,(c) (0.886, ~ 0.436,0.100), (d) 
(0,701 0.147, - 0.615). 
1.5: 用 公式 (1.5.3) 计 算 。(a) (235, 128,128), (b) (144,54, 34), (c) (210, 16, 146), (d) 
(170, 166,16). 
1.9: 对 于 PAL Al SECAM ,亮度 带宽 者 是 5,04 MHz, 








HU) = TE OETI A) opt inf.) 





2.2: 投 影 网 像 的 CSET 是 : 


Wf Af) = B 
摄取 信号 的 CSET 是 : 
Wo of = VAS AAA A) 
_ po OSB) sin(xf,B) sin(nf,T,) sin(ny,T,) sin(nfv.A,) 
nfB zf, B mp, aff, nfo A 
x exp(jnfe,A, lS, + fe.) 
感觉 上 ,摄取 的 图 像 是 一 个 水 平 运 动 的 模糊 方块。 
2.5: d = 3,1,5 米 观 看 时 , 角 频 率 分 别 为 = 5.29,1.88,8.75 cpd。 当 所 为 3~5 cpd 
HY HVS 最 敏感 ,因此 d = 3 米 比 其 他 两 种 安排 更 好 ， 
2.6: 当 (B59,) = 《1,1),(4, -3),(4.0),(0.1) 时 ,时 间 频 率 分 别 为 上 = 7,0,12,4 Hz。 
2.7: 当 眼睛 精确 地 跟 降 物体 运动 时 ,视网膜 上 的 时 间 频 率 六 = 0。 对 于 固定 的 眼 速度 
(2,2), f. 分别 为 7,14,2,10 Hz。 


第 3 章 


B B 
me ne sey + fo) 



































3.1:(a) 点 阵 和 的 沃 罗 纳 晶 格 是 六 边 形 ,采样 密度 是 1/2/73. ARE B KRS ae BE 
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形 ,采样 密度 是 /4。(b) 点 阵 A 的 反 商 点 阵 的 基 矢 量 是 [1WW3,0],[ - 1/243, 12], 它 
的 沃 罗 纳 蝇 格 仍然 是 一 个 六 边 形 ,但 是 与 原始 点 阵 的 方位 不 同 ,采样 密度 是 2y3- 点 
阵 了 的 反 高 点 阵 的 基 矢 旦 是 [V214, -v2/4),[0,V2/2], CNES MENIRE NE 
E RARER 4. (F rw 代表 采样 时 不 发 生 混合 的 频谱 的 最 大 半径 , 则 ram = 
UNB, Tama = 114。 因 为 Fana > mm 所 以 点 阵 A 更 好 。 

3.7:(a) Wifi fe) = V Znerpl -27° (f? +f2)), (Bb)a=1.43 
(e) 


Ymm) = Z- (ni + nim + n)a’ /2) 


Pfa) = Æ Lel - zz 人 人 一 am =m) 


e(a) 
对 于 (d) 和 (e), 见 MATLAB 手稿 prob3 _7,m( 可 查询 网 直 www. prenhall. com/wang )。 
3.9: 在 所 有 的 情况 下 ,空间 采样 率 是 ,= ,= 4 样 点 / 米 。 以 样 点 / 秒 或 Hz 为 单位 的 时 
间 采 样 率 /., 尾 (a)0,(b)8, Ce)4。 
3.10: 表 疯 空间 频率 是 f =2,f, = - 2, 这 个 条 看 起 来 是 静止 的 。 
3.13; 


HG fd = se ) eae mle. D ox p( inf.) 








第 4 章 

4.1: 顶 场 的 去 隔行 滤波 器 是 : 
1/2, t =0,y =+ Ay; 
14, f=-A,y=0; 
-M8 t=-A,y=Ł?A; 
0, 其 他 

SSET FH (fy f1) = eos (27h A, ) + FC - cost df, A, )) em ， 

FRAO AAT RAE: byt) = hlasy, 4), Uf) =E- fide 
4.2; ROT RAEN 

(nA, 0] 


hilxyyst) = 


1 9 
= [ ~ 35:0.95.1.95.0, -5J =-3,-°,3,4[0,4,) = = 


1 
其 中 A, = 1/60 s,A, = 373 像 高 。 


DSFT 为 : Hun(f,f) =14+8 器 coorf - Zeosbnf, + 二 exp( jnf) 
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SSFT 9: Hyer (A sf = Hos (Ah ALD 

4.5:(b) 中 间 点 阵 上 的 等 效 滤波 器 (120 fps, 217 Je: ACO, mA,) =1,m=0,1,2.3,46 
SSET 为 ; Herr fy of) = C1 + 2eos2rA,f, +2cos4rA )cxp( — j4nA fe) 

4.6: (b) 1 的 蔬 滤 波 器 (垂直 方向 ) 是 : 





hi[n2A,] = 高 [- 29,0,88,138,88,0, ~ 29],n = — 3,,3 
176 58 
它 的 DSFT dE: H, (f,) = 1+ eo ~ T o 


W 2 AINERE: jo[ n8,] = [1:0,7,16,7,0,1],n = 3,043 


其 DSFT 是 :HCf,)=1+ Hazaji 部 eerp。 


SLAG A- AE BREE: 


Y ol 8 7,7 8 1 
tnar0 = [- is OBETE 1 ~ 138 





DSFT Æ: M ff) = 1+ Boosdaf, + coo; + Zeosónf, - Feel ony, 


相应 的 SSFT 分 别 是 : thanlf) = = HOAS), Hen (f= Hs (tye 
As sor fy hf) = Ha (AS AS) o 
4.7:(b) 对 于 场 1， 





ji[n2A,] = 5 12,.1,12],n =-1,0,1 
对 于 场 2， 





hlas] = [803,13,0,1],n = -3,3 
总 的 滤波 器 是 ，; 


SSFT 是: 
ACE, fi) = 1 + FORRAS, + conA,f, + Leos6nAf 


第 5 章 


5.1: 由 三 维 运动 (X, 了 ,2Z) 到 (X,Y 了 , 2’) 所 引起 的 x 轴 方 向 到 Ax = FK(Z- 
271 ZZ'。 每 个 图 像 像素 的 宽度 是 A 下 = WIN, ,其 中 W=1.33 ,N, =352。 令 Ax= 
AW, WAT AZ, =Z- Z= -Z1 + XN,/W), 类 似 地 ,AZ = -Z1 + YN,SH). 

5.3: 仿 射 参 数 可 以 通过 解 下 列 方程 求 得 ; 


1 x ne da] [1% neo com 
l= dl x y| 6 = d,a 
a, dsd LI x yb d,a 
第 6 章 


6.5: 抉 8。 的 运动 矢量 dm 可 以 由 公式 (6.2.7) 求 得 ,这 里 应 该 在 3, 上 求 和 。 这 个 解 只 有 

















1 x ¥% 











] on 
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当真 实 的 运动 矢量 很 小 ,或 渤 代 地 运用 这 个 公式 而 且 初始 估计 接近 真实 的 运动 矢量 
时 才 是 成 立 的 。 
6.6: 











a=( PIA] Vx) VF Ce) LAGI) 
Pine 


x (DFR) ~ #200) [AG VF) 
EN 


6.8: 对 于 一 幅 M x M 的 图 像 ,总 的 运算 次 数 是 (2R + 1)2 1 ,与 块 的 大 小 无 关 。 
6.9: (MI2 I YR/ TT) 41)? + 18M (1 - (172) ) 


6.10: 对 于 KBMA ,720 x 480 x 65: = 1.46F + 9, 对 于 搜索 范围 顶层 为 16、 底 层 为 1 的 两 级 
HBMA, 360 x 240 x 33 + 720x 480x 3 = 9.72E+7。 


第 8 章 
8.1:(a)log L; (b)0. 
8.6:(a) Hı = 1.5850, H, = 3.0850, H.a = 1.5,H= 1.5。(b)R = 1.6667, R,= 3.1667, 
Ror = 1.5: (0) Re = H, A-NAK RAKA 
8.l1:(a)b = LA a;(b)a = b/2;(c)a = 1/A,b = 2/A,MSE = (2/47) (1 - 2), 
8.12:(b) b= (gi + Bit 20 
8.14: MSE = 9/16 每 样 点 。 
第 9 章 





94:01, = 11430,1-9.1-9,1~ plo: = 13.85,0.05,0.05,0.05}, 0? =0.1481, Gw = 
6.75, 其 中 R=2, De =0.0093E%, R, = 14.35,1.22,1.22,1.22], 

9.5:; 特 征 值 为 ,=11+3o,1-p,1-p:1-pla = 13.85,0.05,0.05,0.05|。 对 于 这 种 情 
况 ,KLT 产 生 与 DCT 相同 的 变换 系数 方差 。 


9.6:oe = pi(2p +1), k= 1,2,3, 0% = (1 - 3p7/(2p + 1)) o = 0.06638, Goen = 15.06, 其 中 
R = 2, Dorey = 0.0041 €2, 

















9.7:a, = pl(e+!),k=1,2,65 =0 (1 + p—Ip")/(1 + p) = 0.0744, Goru = 13.45 
第 10 章 
10.5: 用 02， 代表 四 个 方向 ,从 方向 “ 东 * 开 始 , 以 顺 时 针 顺 序 , 四 邻 域 的 直 
接 链 码 是 : 


-1,2, = 1,2,2,2,0, -1,-1, -1,0,1,1,0,0, —1, -1 -1,1,1,0,1,0,1,1,2,2, 1. 
差分 码 是 : 
-1, -4,1,—1,0,0,2, -1,0,0,1,1,0, - 1,0, -1,0,0,2,0, - 1,1, - 1,1,0,1,0, - 1 
10.6: P94 Æ: “0111101101111111”, JERR Æ: “22132233131”, 其 中 ,1 代表 最 亮 阴影 区 ,2 
代表 中 等 阴影 区 ,3 代表 最 暗 阴 影 区 。 
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